1、G/T 19101-2003 前言本标准是术i吾数据库的系列国家标准之一。已经发布的系列标准有:GB/T 13726-1992 术语与辞书条目的记录交换用磁带格式GB/T 16785一1997术语工作概念与术语的协调GB/T 16786一1997术语工作计算机应用数据类目GB/T 17532-1998术语工作计算机应用词汇GB/T 18155-2000 术语工作计算机应用机器可读术语交换格式(MARTIF)协商交换GB/T 13725-2001 建立术语数据库的一般原则与方法GB/T 15387.1-2001 术语数据库开发文件编制指南GB/T 15387.2-2001 术语数据库开发指南GB
2、/T 15625-2001 术语数据库技术评价指南GB/T 19102-2003 术语部件库的信息描述规范本标准的附录A是资料性附录。本标准由全国术语标准化技术委员会提出。本标准由中国标准研究中心归口。本标准由中国标准研究中心、北京大学计算语言学研究所等单位起草。本标准主要起草人:陈玉忠、宋敏、何燕、叶盛、穗志方、程永红、肖玉敬。田GB/T 19101-2003 建立术语语料库的一般原则与方法1 范围本标准规定了建立术语语料库的一般原则与方法。本标准运用于术语语料库的研究、开发、维护及有关管理工作。其他涉及语料库建设的工作也可参照使用。2 规范性引用文件下列文件中的条款通过本标准的引用而成为本
3、标准的条款。凡是注目期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GB/T 13725-2001 建立术语数据库的一般原则与方法GB/T 15237.1-2000术语工作词汇第1部分2理论与应用(eqvISO 1087-1 :2000) 3 术语和定义GB/T 15237.1确立的术语和定义适用于本标准。为了便于使用,本标准重复了其中的部分术语和定义。3.1 3.2 3.3 3.4 术语term 在特定专业领域中一般概念的词语指称.GB/T 152
4、37.1-2000.3.4. 3J 语料库m叩us集中起来供分析用的语言数据集合。GB/T15237.1-2000.3.6. 9J 术语语料库terminol嗨ycorp田分析和研究术语用的语料库。术语语料库系统terminologycorpns system 包含管理框架的术语语料库。注g改自GB/T17532-1998.7.7. 4 基本要求4.1 语料的要求4. 1. 1 一敖性人库语料应是格式致、有效的。4.1.2 适用性语料应从正式出版物或从权威性网站发布的相关专业文献中选择。4. 1. 3 忠实性语料中原来使用的标题、摘要、关键字以及参考文献等各类原始信息和篇章结构应保持完整。GB
5、/T 19101-2003 4. 1. 4 广泛性在特定的领域内研究术语时,宜按各个子领域数量相对平衡的原则收集语料。对于自各个子领域发展的不均衡性造成新术语分布的不均衡,宜在领域收集语料总数不变的情况下,容许部分子领域间的语料数量进行适当调配,以增加所收集语料对新术语的覆盖量。语料来源宣考虑题材多样性的原则,应综合考虑其专业性、代表性和客观性的应用需求。在翻译和原创作品类型的收集上,应确定合适的比例。在选取语料时还应适当考虑地域分布原则,即适当收取港、澳、台和海外华人的学术文章。4.1.5 适时性应及时补充和更新语料。4.2 置标语言的要求4.2.1 通用性应采用广泛使用且具备相应的软件工具
6、包的置标语言。4.2.2 简洁性应功能完备、简单易用、便于扩充和软件开发。4.2.3 易交换性应不受具体使用平台的限制,容许跨平台进行语料的交换和共享。4.2.4 保值性应能够长期使用,而且标注的文件易于向其他文件格式转化,能够适应语料库在实际应用中各种不同存储格式的要求4.3 术语语料库系统的要求4.3.1 设计原则与质量要求术语语料库系统的设计原则和质量要求参见GB/T13725-2001的6.10 4.3.2 对计算机系统的要求术语语料库系统对计算机软硬件的要求参见GBjT13725-2001的6.2。5 术语语料库的加工和组织5.1 术语语料库的加工层次术语语斜库的加工层次可分为三级2
7、a) 原始术语语料库,是未经任何标注的术语语料库。b) 篇章级标注术语语料库,是标注了文本篇章一级信息的术语语料库。c) 术语标注级术语语料库,是在篇章级标注的基础上,标注了领域术语信息的术语语料库。术语语料库的规模一般比较大,在语料的篇章标注、术语标注等方面宜采用人机结合的方式进行;为便于数据交换,标注工具宜采用通用的置标语言。5.2 术语语料库的加工流程术语语料库的一般加工流程如图1所示GB/T 19101-2003 固1术语语料库的一般加工流程5.2.1 窑料搜集语料可以来自国家标准、行业标准及其他标准文献,也可以来自正式出版发行的辞典、百科全书、期刊、教材、报刊及其他工具书和权威性网站
8、发布的相关文献p还可以通过与其他术语语料库联网、交换语料数据及记录载体等方式获得。5.2.2 规范化处理按照已定的标准格式或规则,对从各种途径获取的语料进行初加工。例如语料的查重、文件格式的统一转换等。5.2.3信息标注对规范化处理后的原始语料,结合项目研究的近远期目标可采用置标语言进行篇章级、术语级等的信息标注。一般根据术语语料库加工层次的不同,可选择的标注信息有以下三类25.2.3.1 篇章信息等); 主要包括2文件标识g篇章编号$-一语料来源;一学科领域(如信息科学领域);一一子领域(如计算机科学技术领域、电子通信与自动控制技术领域、信息科学与系统科学领域一题材来源(如杂志、报纸、书籍等
9、);一一作品类型(如原创作品、翻译作品h地域分布(如大陆语料、港台语料);时间;一一标题g作者,作者单位;摘要;关键词;正文;一段落;GB/T 19101-2003 -一句子p-一参考文献等。5.2.3.2 术语信息主要包括2-一术话:-一术语结构,-一词性等。5.2.3.3 其他个多功能的术语语料库应具备灵活性,允许增加新的描述信息,以满足不同的用户群所需要的各类信息。5.2.4 术语语料库生成按照一定的格式和要求生成术语语料库e5.3 术语语料库的组织为便于术语研究、语料交换和术语语料库系统开发,术语语料库中语料的存储和管理应尽量采用通用的分类法迸行分类组织。通用的分类方法如ga) 中国标
10、准文献分类法(CCS), b) 国际标准分类法(lCS), c) GB/T 13745学科分类与代码等。6 术语语料库系统的建立和功能设计6.1 术语语料库系统的建立术语语料库系统建立的基本过程应遵循一般系统建立的原则和方法.6.2 术语语料库系统的功能设计根据术语研究的需要,术语语料库系统一般应提供术语的用例查询、领域频度信息统计等功能。6.3 术语语料库系统的服务方式应方便用户使用,系统设计时可根据需要加以选择。例如g查询、联机检索、通过互联网访问等。7 术语语料库系统的管理与维护至少应包括如下内容z一语料管理与更新,-一服务方式或功能的更新g一一术语语料库系统的维护与管理;二一输入、输出设备维护与管理等。附录A(资料性附录)建立术语语料库的有美国家标准GB/T 3860 文献叙词标引规则GB/T 10112术语工作原则与方法GB/T 13190 汉语叙词表编制规则GB/T 13745 学科分类与代码GB/T 15237.1术语工作词汇第1部分s理论与应用GB/T 17532术语工作计算机应用词汇GB/T 14814信息处理文本和办公系统标准通用置标语言(SGML)GB/T 19101-2003