1、GBjT 19102-2003 前本标准是术语数据库的系列国家标准之一。已经发布的系列标准有g言GBjT 13726-1992 术语与辞书条目的记录交换用磁带格式GBjT 16785一1997术语工作概念与术语的协调GBjT 16786-1997术语工作计算机应用数据类目GBjT 17532-1998术语工作计算机应用词汇GBjT 18155-2000术语工作计算机应用机器可读术语交换格式(MARTIF)协商交换GB/T 13725一2001建立术语数据库的一般原则与方法GBjT 15387. 1一2001术语数据库开发文件编制指南GB/T 15387.2-2001 术语数据库开发指南GB/T
2、 15625-2001 术语数据库技术评价指南GB/T 19101-2003 建立术语语料库的一般原则与方法本标准的附录A是资料性附录。本标准由全国术语标准化技术委员会提出。本标准由中国标准研究中心归口。本标准由中国标准研究中心、北京大学计算语言学研究所等单位起草。本标准主要起草人=叶盛、吴云芳、宋敏、穗志方、程永红、胡俊峰、肖玉敬。皿GB/T 19102-2003 召l冒生ZE习术i吾部件库是一个包含丰富信息的知识库。这些丰富信息有助于新术语的自动发现、术语的自动定义、术语概念体系的建立等相关研究工作。n GB/T 19102-2003 术语部件库的信息描述规范1 范围本标准规定了术语部件库
3、的信息描述规范。本标准适用于术语部件库的研究、开发、维护及有关管理工作,在情报检索领域中也可参照使用。2 规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GB/T 13715 信息处理用现代汉语分词规范GB/T 13725 建立术语数据库的一般原则与方法GB/T 15237.1-2000术语工作词汇第1部分z理论与应用CeqvISO 1087-1 :2000) GB/T 175
4、32-1998术语工作计算机应用词汇CeqvISO/DIS 1087-2-2:1996) 3 术语和定义GB/T 15237. 1-2000、GB/T17532-1998确立的术语和定义适用于本标准。为了便于使用,本标准重复了其中的部分术语和定义。3. 1 3.2 3.3 3.4 3.5 术语term 在特定专业领域中一般概念的词语指称。GB/T15237.1-2000, 3.4. 3J 术语敏据库terminological database 包含术语数据的数据库。GB/T17532-1998, 7. 6J 单词术语single-word term 由单个词构成的术语。多词术语multi-w
5、ord term 由多个词组成的术语。术语部件term component 组成多词术语的词。特定专业领域中结合紧密、生成能力强、使用稳定的语言片断也可看作是术语部件,如超大规模、光桐合在信息科学与技术领域也可看作是术语部件。3.6 3. 7 术语部件库term component database 存储术语部件信息的数据库。领域特异性domain specific 特定专业领域所特有的、与专业领域的主题密切相关的特性。l GB/T 19102-2003 3.8 领域特异性部件domain s醉cificcomponent 在特定专业领域中具有领域特异性的术语部件,一般是该领域中的单词术语。如
6、半导体材料中的半导体。4 术语部件库的倍息描述4. 1 术语部件库的信息结构术语部件库的信息描述可从四个方面进行=a) 术语部件的基本信息描述sb) 与术语部件位置相关的统计信息描述gd 术语部件的语法信息描述gd) 术语部件的话义信息描述。不同应用目标的术语部件库建设可根据需要选择不同的描述侧面。术语部件的上述相关信息从特定专业领域的术语数据库中获得。4.2 术语部件的基本情息描述4.2. 1 主条目术语部件标明术语部件本身.4.2.2 缩暗语标明术语部件是否是缩略语。4.2.3 全称标明术语部件对应的全称(当主条目术语部件为缩略语时)。4.2.4 领域特异性标注标明术语部件是否是领域特异性
7、部件。4.2.5 来源标明术语部件的来源语种和对应的原文。示例s软件(英语,software)4.2.6 其他基本信息根据研究需要可以设定其他的相关信息。4.3 与术语部件位置相关的统计倍息描述4.3. 1 频次描述描述术语部件在术语的不同位置出现的频次。包括za) 术语部件独立作为术语条目出现的频次gb) 术语部件在术语开始出现的频次$c) 术语部件在术语中间出现的频次;d) 术语部件在术语结尾出现的频次。示例z寄存器(1,63,87,786)表示术语部件寄存器在术语数据库中,单独作为术语条目出现了l次g在术语的开始出现了63次p中间出现了87次g结尾出现了786次。4.3.2 频率描述描述
8、术语部件在术语的不同位置出现的频率。包括:a) 术语部件独立作为术语条目出现的频率Pb) 术语部件在术语开始出现的频率,z GB/T 19102-2003 c) 术语部件在术语中间出现的频率gd) 术语部件在术语结尾出现的频率.示例z寄存器(0.1%,7%,9%,84%)表示术语部件寄存器在术语数据库中,单独作为术语条目出现的频率为O.1 %,在术语的开始出现的频率为7%,中间出现的频率为9%,结尾出现的频率为84%。4.3.3 其他统计信息根据研究需要可以描述其他的统计信息。4.4 术语部件的语法倍息描述4.4. 1 词性标明术语部件的词性.根据研究需要可自行选择合适的词性标记集。术语部件词
9、性的确定以其在术语数据库中的使用为依据。同一个术语部件可标记一个以上的词性,即允许有兼类。4.4.2 术语郁件构成术语时和其他部件组成的词性序列标明术语部件构成术语时和其他部件组成的词性序列。词性序列的确定以术语部件在术语数据库中的表现为依据.术语部件构成术语时可能存在多种不同的词性序列,可以根据需要选择合适的标记方式,例如ga) 只标明频次最高的词性序列,示例g电路(名词十电路)注:+表示线性组合.下同.b) 标明所有的词性序列并附带频次信息;示例z电路(名词+电路280,电路+名词105.动词+电路20)c) 标明所有的词性序列并附带频率信息。示例E电路(名词+电路69%;电路+名词26%
10、;动词+电路5%)4.4.3 其他谱法倍息根据研究需要可以设定其他的语法信息.4.5 术语部件的语义僧息描述描述术语部件的语义信息。根据研究需要可从不同的角度进行描述,例如ga) 设定一个语义分类体系,描述术语部件在语义分类体系中的位置,即为每个术语部件赋予一个合适的语义类标记,语义分类体系应该是具有领域特异性的sb) 结合术语概念体系的建立,设定一些语义关系,描述术语部件构成术语时所引发的术语之间的语义关系的变化。详见附录A.5 术语部件库的建设术语部件库的建设是与特定专业领域术语数据库的建设相结合的,服务于该领域的新术语自动发现、术语概念体系的建立等研究工作。术语部件库的建设应明确其相关的
11、专业领域、应用目标以及最新更新日期等.术语部件库的建设应遵循国家有关信息系统建设的规定,做好与术语语料库、术语数据库的协调,实现信息交换与资源共享。术语部件库建设的基本流程如图1所示。3 GB/T 19102-2003 术语盘据库基本信且基本信且的骨析的描述位置信息位置信息术语晕目前的分析的描述切分和标注术语部件库语法倍且语法信息的生成的分析的描遣术语部件的提取语且信且面且信息的分靳的握这、4 困1术语部件库建设的基本流程5. 1 术语撒据库是术语部件库建设的基础,是术语部件信息的主要来源。术语数据库应达到一定的规模,并具有领域特异性。5.2 术语条目的切分和标注是准确获取术语部件的必需前提。
12、术语条目的切分原则上遵循GB/T13715的分词规范。在特定专业领域中结合紧密、生成能力强、使用稳定的语言片断也宜看作一个切分单位。术语条目标注的词性标记集应与部件标记的词性标记集保持一致。操作中,可用成熟的词语切分和词性标注软件先行进行计算机自动切分和标注,然后加以人工校对。5.3 术语部件的提取在术语条目切分和标注的基础上,提取出术语部件。5.4 术语部件的信息分析基于术语数据库,对提取出来的术语部件的基本信息、位置信息、语法信息、语义信息逐项进行统计和分析。各类信息的统计宜在专家的参与指导下,利用计算机自动实现。5.5 术语部件的倍息描述在术语部件信息分析的基础上,对术语部件的基本信息、
13、位置信息、语法信息、语义信息逐项进行描述。5.6 术语部件库的生成在上述工作的基础上,生成完整的术语部件库。术语部件库应该是一个结构化的系统,可以方便地存取、检索、修改、删除、更新和补充数据。数据库的建设可参见GB/T13725的相关规定。4 GB/T 19102-2003 附录A(资料性附录)术语部件的结构语义信息描述A. 1 术语和定义A. 1. 1 左部件1eft component 如果一条术语可以拆分为一个术语部件与另外一条本专业的术语,且该部件位于术语的左方,则该部件称为该条术语的左部件。如z报文分组交换中报文是该术语的左部件p分组交换中分组是该术语的左部件。A. 1. 2 右部件
14、right component 如果一条术语可以拆分为另外一条本专业的术语与一个术语部件,且该部件位于术语的右方,则该部件称为该条术语的右部件。如:解码器中器是该术语的右部件;虚拟空间中空间是该术语的右部件。A.2 术语部件的结构语义信息描述术语部件的结构语义信息对术语部件作为术语左部件、右部件时与术语被修饰成份之间的语义关系进行描写。结构语义信息的描述是与术语概念体系中设定的分类标准相关的,可以用来指导新术语在术语概念体系内的定位。也可以根据新术语自动发现和术语自动定义等方面的应用需求设定所需的描述内容。同一个术语部件在具体的术语条目中作为左部件出现或右部件其结构语义属性一般不相同。因此在描
15、述过程中又分为以下两个方面=A.2. 1 左部件的结构语义信息描述左部件的结构语义信息是指术语部件作为左部件出现时所表现的结构语义特性。左部件的结构语义信息可定义为一个N元组。其中N的取值等于所选定的概念体系中包含的关系数。其取值可以是一个根据统计得到的概率值,也可以是在设定阀值情况下得到的。一1属性值。示例2在信息科学与技术领域的概念关系中包含有方法和技术和使用材料两种类型的分类标准。在仅考察这两种关系的情况下,左部件的结构语义信息可描述为一个二元组Q仙,p)。并行(1,0)表示左部件并行当附加在一个原有的术语X上形成术语Y时,术语Y指称的概念是原术语X的一个属概念,而且Y概念可以形式化的定
16、义为2采用并行技术的一种X。但不会与原术语构成=使用并行材料的一种X.A.2.2 右部件的结构语义信息描述右部件的结构语义信息描述是指术语部件作为右部件出现时所表现的结构语义特性。右部件的结构语义信息描述也同样可定义为一个N元组。其中N的取值等于所对应的概念体系中包含的关系数。其取值可以是一个根据统计得到的概率值,也可以是在设定阔值情况下得到的。一1属性值。示例g在信息科学技术领域中右部件往往可以引导设备、装置以及操作的分类关系。一些常用的词与后缀如=处理、装置和器、机等,在作为术语的右部件时常可以引导设备、装置的概念关系。也就是说,如果一条术语Y可分析为X+器的话,一般可以导出Y是产生(完成)X的种装置(设备)。
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1