1、中华人民共和国国家标准汉语信息处理词汇部分基本术语发布实施国家技术监督局发布中华人民共和国国家标准汉语信息处理词汇部分基本术语国家技术监督局批准实施本词汇涉及到汉语信息处理的各个主要方面其中包括基本术语汉语和汉字汉字编码汉字识别汉语语音处理汉语理解机器翻译汉语信息处理设备汉语信息处理系统软件汉语信息处理技术应用及其他等约个部分在学科方面本词汇具有相对的独立性和系统性主题内容与适用范围主题内容本标准规定了最重要的或最基本的汉语信息处理术语它们是其他各部分的基础适用范围本标准适用于有关汉语信息处理领域的科研设计生产使用维护管理教学和出版等方面引用标准信息交换用汉字编码字符集基本集数据处理词汇遵循的
2、原则和规则词条词条是本标准为使用者提供的便于查检和参阅的基本单元词条的组成本标准的词条一般由下述几部分构成索引号不同语种文本都是一致的术语术语的缩写允许用的同义术语术语的英译名术语的英文缩写术语的定义以例开头的一个或几个示例以注开头的一个或几个注释用以说明术语应用的特殊情况图图表或表格多义术语当一个术语有几个不同的意义时分别在不同的词条中给予定义以便于译成其他语种缩写有些术语具有常用的缩写但在定义示例及注释中不采用这种缩写符号的用法圆括号的用法有些术语使用时在不引起误解的情况下可以省略掉其中一部分可省略的部分为黑体字并用圆括号括起在定义示例和注释中只用完整的术语有些术语后圆括号内的非黑体字不是
3、术语的组成部分而是用来说明该术语的使用须知和特殊应用形式或语法形式的方括号的用法当几个术语使用同一个定义格式个别词不相同时可将它们合并在一个词条中个别不相同的词放在方括号中表示可以替换方括号前面的词方括号及其中的词在术语及定义中出现的顺序必须一致黑体字与星号术语在定义示例和注释中用黑体字印刷时表示该术语已在本词汇的其它词条中给过定义并且只有它在另一词条中首次出现时才印成黑体字如果有两个已分别在不同的词条中给过定义的术语连在一起使用时则用星号将这两个术语隔开英译名术语所对应的英文采用美国习用的拼法索引本标准附有汉语索引和英文索引索引包括本部分的全部术语根据汉语索引或英文索引可查出术语正文的索引号
4、术语和定义基本术语一般术语语言信息处理用计算机对自然语言的音形义等信息进行处理即对字词句篇章的输入输出识别分析理解生成等的操作与加工汉语信息处理用计算机对汉语的音形义等信息进行处理有时又称中文信息处理汉字信息处理用计算机对汉字表示的信息进行的操作和加工如汉字的输入输出识别等汉字输入利用汉字的形音或相关信息通过各种方式把汉字输入到计算机中去的过程汉字输出将计算机内以数据形式表示的汉字在显示终端印字机等设备输出的过程多文种信息处理在两种或两种以上语言文字字符集编码体系基础上实现对多文种信息的兼容处理民族语言支撑能力缩写使计算机具备能够处理民族语言的开发能力例中文化汉字化语言文字语言为了传递信息而使
5、用的一组字符约定和规则注同的条自然语言一种语言其规则是根据当前流行的用法而不是用明确的形式规定的注同的条人工语言一种语言其规则在使用前已明确地规定了注同的条受限语言在词汇句法语义及语用等方面受到人为限制的自然语言的真子集语言模型对自然语言的数学描述分为生成模型分析模型和识别模型三种语音人类发出的能表达一定意义的声音文字人类记录和传达语言的书写符号系统词最小的能独立运用的语言单位例大国家奥林匹克词汇一种语言中所有的词与固定词组的集合语法语言的结构规则自然语言的语法具有一定的民族特点和相当的稳定性句法词或词组之间的组合规则语义词或词组与它们的含义之间的关系语用词或词组与它们的解释和使用之间的关系文
6、本语言的符号串文字信息处理的对象语言资料库文本的有序集合各种分类检索综合比较的基础语言知识库计算机所存储的语言知识的集合它是计算机从语音文字词汇句法语义语用等角度对语言进行信息处理的基础计算语言学语言学的一个分支学科它应用计算机技术来研究和处理语言文字内容包括字频和词频统计语音的识别与合成机器词典的编纂机器翻译自然语言理解计算机的自然语言接口等汉语和汉字汉语汉族的语言中国境内主要的通用语言也是国际通用语言之一属汉藏语系中文特指汉语现代汉语现代汉民族语言包括它的主要地域分支北方话吴语湘语赣语粤语客家话闽语等它的规范化语言是普通话普通话现代汉民族共同语它是规范化的现代汉语以北京语音为标准音以北方话
7、为基础方言以典范的现代白话文著作为语法规范汉语拼音方案给汉字注音和拼写汉语普通话语音的方案方案采用个拉丁字母有声母表和韵母表及拼写规则对声调符号和隔音符号的标记也有规定汉字记录汉语的书写符号系统汉字也被其他一些国家或民族用作为书写符号现代通用汉字现代通行的记录现代汉语的书写符号系统例现代汉语通用字表汉字属性汉字本身所具有的音形义三方面的特征及附加的有关特征例笔画笔顺部首部件汉语拼音方案四角号码等汉字属性字典包括汉字部首汉语拼音方案笔画数笔顺使用频度组词能力文字结构标准部件标准字形点阵码等属性及其电报码等相关信息的数据库或字典简化字采用同音代替改换声旁草书楷化偏旁简化类推等方法制定的一批笔画较少
8、的汉字这些字取代了对应的笔画较多的汉字作为通行的正体特指年重新公布的简化字总表共字例后後亿亿发说说难难繁体字被简化字代替的笔画较多的汉字例专专圣圣宁宁对机机异体字汉字通常写法之外的一种音同义同只是字形笔画或结构不同的字例升升迹迹泪泪分词单位汉语信息处理使用的具有确定的语义和或语法功能的基本单位汉语分词从工程观点出发按照特定的规范对汉语按分词单位进行划分的过程汉字编码汉字汉语词语编码按照一定的规则对指定的汉字汉语词语集内的元素编制相应的代码汉字编码字符集按一定的规则确定的包含汉字及有关基本图形字符的有序集合并规定该集合中的字符与编码表示之间一一对应的关系例汉字编码方案汉字集元素映射到其他字符集元
9、素的一组完整规则汉字编码键盘输入方法运用某种编码方案键盘设备及计算机资源由操作者向计算机输入汉字的方法汉字编码输入方法评估按照约定的或法定的规则和步骤对汉字编码键盘输入方法的素质和特性进行定量的测试和定性的评价等汉字信息交换码汉字信息处理系统之间或者信息处理系统与通信系统之间进行汉字信息交换的代码汉字内部码汉字在信息处理系统内部最基本的表达形式供存储处理传输汉字用注它与汉字信息交换码有一定的对应关系通常借助于某种特定标识信息来表明它与单字节字符的区别汉字控制功能码说明汉字数据的传送控制格式处理汉字扩充及设备控制等的代码汉字字形码表达汉字字形的字模数据通常用点阵矢量函数等方式表示汉字点阵字形计算
10、机中以点阵形式表示规范化汉字字形的一种形式语音和文字自动处理汉字识别利用计算机抽取汉字字形特征实现对汉字的自动输入可分为联机手写体汉字识别印刷体汉字识别和手写体汉字识别汉语语音识别利用语音分析技术抽取语音特征实现对汉语语音的自动识别可分为特定人和非特定人两种汉语语音分析将汉语语音模拟信号转换为语音数字信号抽取汉语语音的特征建立汉语语音模型的过程汉语语音合成利用汉语语音信息库和语音的合成系统合成出所需汉字单词短语或整句的汉语语音流汉语语音信息库利用语音分析压缩技术根据汉语语音特征模型声母韵母声调音节语调语气建立的汉语语音数据参数特征数据库汉语语音数字信号处理利用语音采样分析存储合成传输等技术实现
11、对汉语语音的识别录放合成和通信功能汉语语音信息处理利用计算机系统汉语语音的编码技术和汉语语音数字信号处理技术实现汉语语音输入输出理解翻译语音和文字相互转换以及语音信息通信等信息处理功能汉语理解和机器翻译汉语理解计算机基于语言知识和背景知识对汉语进行的分析判断和推理机器翻译缩写用计算机将一种自然语言源语言转换成另一种自然语言目标语言的过程机器词典以人用词典为基础通过对词法句法语义等信息的规范化和形式化描述做成的存储在计算机中的词典源语言在机器翻译中被翻译的语言目标语言在机器翻译中所译成的语言句法语义分析用计算机在句法和语法层次上对句子进行分析即主要通过语言中各种成分的句法功能和语义关系来描述句子
12、的结构与层次汉语分析将输入计算机的汉语句子或篇章利用给定的分析方法确定每个成分的词法句法和语义等信息并将其转换成便于计算机进一步处理的中间表示汉语生成从计算机中的某种语言信息的中间表示出发通过必要的语法和语义知识转换生成汉语的句子或篇章汉语信息处理设备和软件汉语语词处理机一种专用的汉字信息处理系统用于汉语文稿的输入编辑存储印刷及传送多文种语词处理机一种能处理两种及两种以上语言文字信息的具有键击输入显示校改文本编辑印刷输出等功能的设备该设备通常也具有简单的文档管理功能例中英文电子打字机汉字印字机能实现中英文输出的印字设备通常分为击打式和非击打式两种一般都配有中英文字形库汉字终端能完成汉字输入输出
13、功能的计算机终端通常分为简易型通用型和智能型汉字输入键盘便于输入汉字的专用键盘它可分为整字型部件字根型等类型它在键位布局和结构设计等方面有别于传统的西文键盘汉卡将汉字编码输入方法的码表和有关程序及汉字的字模数据固化在器件中的一种逻辑电路插件汉字字形库建立在计算机存储媒体上的汉字的字模数据集合汉语词语库建立在计算机存储媒体上汉语的词和短语的集合该集合可按词语关系的结构作有序的排列可以按收词多少词语性质功能结构等分类汉字公用程序支援计算机系统在汉字方式下实际运行的辅助程序例汉字造字排序编辑及打印等程序多文种信息处理系统能处理由多种语言文字所表述的信息的系统它们可分为两类一类是在原有单文种系统基础上
14、扩充而成的在这类系统中新纳入的文种应用的范围往往受到限制一类是以能容纳多种文字字符的大字符集为基础设计的系统可不受上述限制汉语信息处理技术应用通用型汉字信息处理系统适用于各种数据处理和汉字信息处理的计算机系统其特点是通用性强汉字输入输出手段多操作方便电子出版系统缩写利用以计算机为主的电子技术代替传统的人工编辑铅字排版的自动化印刷出版系统中文情报检索系统对中文情报进行收集存储检索加工编辑和分发传送的信息处理系统汉语计算机辅助教学系统通过教员或学员与计算机之间的交互活动辅助编辑教材选择适于学员个人的学习程序和课程内容达到教学汉语目的的一种信息处理系统附录汉语索引参考件词词汇电子出版系统多文种信息处
15、理多文种信息处理系统多文种语词处理机繁体字分词单位汉卡汉语汉语词语编码汉语词语库汉语分词汉语分析汉语计算机辅助教学系统汉语理解汉语拼音方案汉语生成汉语信息处理汉语语词处理机汉语语音分析汉语语音合成汉语语音识别汉语语音数字信号处理汉语语音信息处理汉语语音信息库汉字汉字编码汉字编码方案汉字编码键盘输入方法汉字编码输入方法评估汉字编码字符集汉字点阵字形汉字公用程序汉字信息交换码汉字控制功能码汉字内部码汉字识别汉字输出汉字输入汉字输入键盘汉字属性汉字属性字典汉字信息处理汉字印字机汉字终端汉字字形库汉字字形码机器词典机器翻译计算语言学简化字句法句法语义分析民族语言支撑能力目标语言普通话人工语言受限语言通
16、用型汉字信息处理系统文本文字现代汉语现代通用汉字异体字语法语言语言模型语言信息处理语言知识库语言资料库语义语音语用源语言中文中文情报检索系统自然语言附录英文索引参考件GB/T 12200.1-1990 Chinese character font library . . .4. 1. 7.7 Chinese character information processing . . . . .4. 1.1. 3 Chinese character input . . . 4. 1.1. 4 Chinese character input keyboard . . . .4. 1. 7.5 Chi
17、nese character internal code 4. 1. 4. 7 Chinese character output . . . . .4. 1.1. 5 Chinese character printer . . . . . . . . . . . . . .4. 1. 7.3 Chinese character recognition . . . . .4. 1. 5.1 Chinese character terminal . . . . . 4. 1. 7. 4 Chinese character utility progr缸ns. . .4. 1. 7.9 Chinese
18、 computer-aided instruction system . . .4. 1. 8.4 Chinese generation . . 4. 1. 6. 8 Chinese information pro田SSlng. . .4. 1.1. 2 Chinese information retrieval system . . . 4. 1. 8.3 Chinese language understanding . 4. 1. 6. 1 Chinese s叩pe田echanalysis .4. 1. 5.3 Chi恤nesespeech di拖gi扯ta挝1s剖igna剑1proces
19、s皿1鸣g.4. 1. 5.6 Chinese speech information lib忱ra缸ry. . . . . . . . . . . . . .4. 1. 5.5 Chinese speech information processi扭ng. . . . . . . . . . . . . .4. 1. 5.7 Chinese speech rec咀gnition. . . . . . . . . . . . . . . . .4. 1. 5.2 Chinese speech synthesis . . . . . . . . . . . . . . . . . . 4. 1.
20、5. 4 Chinese word and phrase c叫di恤ng. . 4. 1. 4. 1 Chinese word and phrase library . . . 4. 1. 7. 8 Chinese word pro。臼s臼s。叮f. . . . . . . . . . . . . 4. 1. 7. 1 Chinese word s臼egmen时tin毡g. . . . . . . . . . . . . . . . . 4. 1. 3. 14 c。mpu旧ta剖ti皿ona副llingui旭ist时tic臼s. . . . . . . . . . . . . . . . .
21、4. 1. 2. 1 7 c。ntempo町ra盯ryChine田selangu回i血ag肝e. . . . . . . . . . . . . . . .4. 1. 3.3 corpus 4. 1. 2. 15 c盯r阻entcommonly-used Chinese character .4. 1. 3.7 E electronic publishing system . . . 4. 1. 8.2 evaluation of Chinese character coding input method . . . . . . . . 4. 1. 4. 5 G general-purpose
22、 Chinese character information pr。因ssingsystem . . .4. 1. 8.1 grammar . . . . . 4. 1. 2. 10 H Hanzi 4. 1. 3.6 L language . . . . 4. 1. 2. 1 10 GB/T 12200.1-1990 language information pro臼ssing . . .4. 1.1. 1 language knowledge base . . . . . . . 4. 1. 2. 16 linguistic model . . . . 4. 1. 2. 5 M machi
23、ne dictionary . . . . . . . . . . . . . . 4. 1. 6. 3 machine translation . . . . . . . . . . . . . . . . . 4. 1. 6. 2 multilingual information processing . . . . . .4. 1.1. 6 multilingual information pro臼ssingsystem . . . . . .4. 1. 7.10 multilingual word pro臼ssor. . . . . .4. 1. 7.2 N Nationallangu
24、age support . .4. 1.1. 7 naturallanguage . . . . . . . . . . . . . . . . . . 4. 1. 2. 2 P parsing 4. 1. 6. 6 Pinyin . . . .4. 1. 3.5 pragmatics . . . . . . . . . . . 4. 1. 2. 13 Putonghua . . . . 4. 1. 3.4 R restricted language 4. 1. 2. 4 s scheme of the Chinese phonetic alphabet . . . . . . . . .4.
25、 1. 3.5 script . . . . . . . . . . . . 4. 1. 2. 7 semanti囚4.1. 2. 12 simplified Chinese character 4. 1. 3. 10 sour四langu吨e. . . . . . . 4. 1. 6. 4 speech sound . 4. 1. 2. 6 s叩严川1咀t阻H. . . . . . . . . . . . . . . . 4. 1. 2. 1且1 T target language . . . . . . . . . . . . . . . 4. 1. 6. 5 text . . . . . . . . . . . . 4. 1. 2. 14 U unsimplified Chinese character . . . . 4. 1. 3. II V variant Chinese character . . . . . . 4. 1. 3. 12 vocabulary . . . . 4. 1. 2. 9 11 附加说明本标准由武汉大学中国船舶工业总公司所机械电子工业部所机械电子工业部计算机与信息发展研究中心航天航空工业部所机械电子工业部计算机外部设备研究所北京语言学院负责起草本标准主要起草人张普林东海袁琦赵珀璋龚滨良林宁