1、GB ICS 35.040 L 71 和国国家标准11: ./、中华人民G/T 26235-2010 信息处理用蒙古文词语标记信息技术Information technology-Mongolian word and expression marks for information processing 2011-05-01实施2011-01-14发布发布中华人民共和国国家质量监督检验检疫总局中国国家标准化管理委员会伪防饲数GB/T 26235-2010 目次前言.皿1 范围2 术语和定义-3 标记的范围4 标记的级别及命名方法5 词语标记代码I GB/T 26235-2010 剧昌本标准是依
2、据现代蒙古语)(1964)等语法著作为基础,规定了信息处理用的蒙古文词语标记。本标准由全国信息技术标准化技术委员会提出并归口。本标准起草单位:中国电子技术标准化研究所、内蒙古大学、内蒙古师范大学、内蒙古教育出版社、内蒙古自治区蒙古语文工作委员会、北京北大方正电子有限公司、撵坊北大青鸟华光照排有限公司。本标准起草人:那顺乌日图、何正安、青格乐图、确精扎布、六十三、淑琴、贺喜格都仁、唐英敏、吕建春、阿荣塔娜。mm GB/T 26235-2010 信息技术信息处理用蒙古文词语标记1 范围本标准规定了信息处理用蒙古文词语标记,只包括某种语文现象或单位的标记符号。本标准适用于蒙古文的各种语料库、词汇集-
3、词典、语文知识库等。2 术语和定义下列术语和定义适用于本标准。2. 1 蒙古文信息处理Mongolian information processing 用计算机对蒙古文形、音、义等信息进行输入、排序、存储、输出、统计、提取等。2.2 标记单位tagging unit 蒙古文信息处理中使用的词汇、词法、正宇法及其他单位,如单词、复合词、固定词、习用语、成语、缩略语、构形附加成分、连接元音、字母、数字、标点符号等。2.3 2.4 2.5 2.6 2. 7 2.8 2.9 词类word class 词的语法分类,根据词法形态、句法功能、语义特征划分出来的类。不确定词ambiguous word 无法
4、确定词性的词或词素,包括:a) 无法确定词性的同形兼类词(如没有上下文环境的形式); b) 不能单独使用的复合词成分,如y(句olan),tomsi (tog_a tomsi gey) , say (gaJar say gey) , xu(xu luubang); c) 形容词最高级形式:ub(ubulagan) , xab(xab xar_a)等。复合词compound word 由两个实词(有时也包括辅助意义的词)组成,语法和词汇上都构成一个单位的固定短语。固定词fixed word 由一个实词和一个虚词组成,连用成型且未转义的固定短语。习用语habitual usage 由一个转义形容词
5、和一个实词组成,主谓结构且表达一个词汇意义的固定短语。成语idiom 由3个或3个以上词组成,充当一个句子成分的固定短语。缩略语abbreviation 专有名词或常用语的简略形式。1 GB/T 26235-2010 2. 10 2. 11 构形附加成分morphological forms 只增加语法意义的词法形态。连接元音connective vowel 辅音结尾的词干后,加接以S,G,N,M,R,L,Y辅音开头的附加成分时,词干后增加的元音或音节。2.12 标记tag 对文本中标记单位的类别进行标注的代码。3 标记的范围本标准包括词类、复合词、固定词、习用语、成语、缩略语、构形附加成分、
6、连接元音、字母、数字、标点符号等的标记。4 标记的级别及命名方法4. 1 第一级标记的命名方法用大写英文字母标记第一级。如:A (来自adjective):形容词S (来自sula):语气词4.2 第二级标记的命名方法用小写英文字母标记第二级。如:Qn (来自noun):名量词Qc (来自cag):时间量词Qv (来自verb):动量词4.3 第三级标记的命名方法用数字标记第三级。如:FaO:形容词级附加成分的原级Fal :形容词级附加成分的比较级4.4 第四级标记的命名方法用数字标记第四级。如:Fall:形容词级附加成分的比较级lFa12:形容词级附加成分的比较级25 词语标记代码本词语标记
7、代码分为词类标记代码、构形附加成分标记代码、其他标记代码。以下是词语标记内容。注:表中右上角的数字表示该项所包含的附加成分或连接元音数;-:代表与词干分写的附加成分;2代表任意成分。为了简化分类,将动态词尾放在连接元音部分。5. 1 词类标记代码词类标记代码见表1。2 GB/T 26235-2010 表1词类标记代码标记代码序号语文现象/单位词类名称代码说明第一级第二级第三级1 N 名词noun 2 Ne 普通名词eng 3 slrege Ne1 可数名词4 usu Ne2 不可数名词5 Nt 专有名词tusxay 6 batusxe Nt1 人名7 xxexota Nt2 地名8 。brmo
8、nggol-un yexe surgaguli Nt3 机构名9 dagur Nt4 其他专有名词10 A 形容词adjective 11 yexe Ac 性质形容词cinar 12 olJatay Ax 关系形容词xanc、:ag_a13 口lontuAi 区别形容词ilgaxu 14 mge 如f数词numeral 15 Q 量词quanttty 16 jsm Qn 名量词noun 17 jil Qc 时间量词cag 18 daxin Qv 动量词verb 19 。时位词oron 20 dooraxi On 名词性时位词noun 21 emnet Oa 形容词性时位词adjective 2
9、2 magsl Od 副词性时位词adverb 23 R 代词pronoun 、,24 bi Rb 人称代词bey_e 25 egun Rj 指示代词Jlgaxu 26 xamlg_a Ra 疑问代词asaguxu 27 ber Ro 返身代词ber 28 yamarba Rx 范围代词xuny_e 29 xen cu Rt 不定代词todorxay 30 Janm Ri 区别代词ilgaxu 31 mggl , tege Rv 动作代词verb 32 V 动词verb 33 Ve 普通动词eng 34 jalgamJila Ve1 及物动词3 GB/T 26235-2010 表1(续)标记代
10、码序号语文现象/单位词类名称代码说明第一级第二级第三级35 tacgna Ve2 不及物动词36 tege Vt 代动词tlgen 37 xe口lenVx 联系动词xolboxu 38 Vz 助动词助动词的z39 lrexu Vz1 第一类助动词40 bay Vz2 第二类助动词41 xabur T 时间词tl口le42 D 副词adverb 43 neng , masl Dx 程度副词xln 44 xaya , daruy Dc 时间副词cag 45 xag_a, balba Db 状态副词bayidal 46 naSl , emun_e Do 地点方向副词oron 47 tung tang
11、 Dd 基拟副词daguriyaxu 48 nexer Dq 情态副词排列49 lab H 情态词排列50 U 事拟词drslex 51 gilas gilas Ub 状态摹拟词bayidal 52 ser ser Ud 声响摹拟词dagu 53 G 后置词排列54 met,slg Ga 比较后置词adalidxaxu 55 tursi, dagus Gc 时间后置词cag 56 dagaw , tal_a Go 地点方向后置词oron 57 bolgan, bri Gx 范围后置词xuny_e 58 tula , bolxor Gs 原因后置词siltagan 59 tlge q 目的后置词
12、jorilg_a 60 xrtel_e Gb 限定后置词排列61 garuy Gg 估量后置词排列62 tuxay Gt 论述后置词tuxayilaxu 63 tutum , tusum Gd 递进后置词dabsiguraxu 64 xamtu Gm 共同后置词xa口lturaxu65 S 语气词sula 66 uu Sa 疑问语气词asaguxu 67 yum Sb 肯定语气词batulaxu 68 bs Su 否定语气词geysxex 4 GB/T 26235-2010 表1(续)标记代码序号语文现象/单位词类名称代码说明第一级第二级第三级69 la Sx 强调语气词xucu 70 biJ
13、e St 猜测语气词ts凸gelex71 bol Sd 提示语气词排列72 口11mSf 返身语气词返身的f73 Ja Sj 允许语气词jbsiyerex 74 口laSg 给予语气词og 75 cu Sq 欠缺语气词欠缺的q76 a Sh 呼叫语气词呼叫的h77 bile Ss 叙述语气词state 78 basa Sc 重复语气词排列79 C 连接词conUnctlOn 80 ba cj 并列连接词或式jergeceglx 81 -bar baraxu gey basa Ca 递进连接式axigulxu 82 buyu Cz 选择连接词或式排列83 xu-aca bisi bisi Cd
14、对立连接式排列84 xann Cr 转折连接词或式erglxu 85 xerbe bol Cb 假定连接式bolJoxu 86 uClr m Cv 原因连接词uc、:ir87 tegebel Cx 归纳连接词xuriyangguyilaxu 88 xedy bol tedy Cc 进层连接式排列89 I 感叹词mte勾ectlOn90 xa Is 情感感叹词sedxilge 91 口la1d 叫唤感叹词dagudaxu 5.2 构形附加成分标记代码构形附加成分标记代码见表20表2构形附加成分标记代码标记代码序号构形附加成分构形附加成分名称代码说明第一级第二级第三级第四级1 F 构形附加成分su
15、ffix 2 Fp 数范畴plural 3 Fpl 数范畴14 nar Fpll 5 nar Fp12 6 -ud2 Fp2 数范畴25 GB/T 26235-2010 表2(续)标记代码序号构形附加成分构形附加成分名称代码说明第一级第二级第三级第四级7 -nugud Fp3 数范畴38 cud Fp4 数范畴49 cuul Fp5 数范畴510 d Fp6 数范畴611 s Fp7 数范畴712 Fc 格范畴case 13 零形式FcO 主格14 Fcl 属格15 零形式FclO 属格。16 -yin5 Fc11 属格l17 u Fcl2 属格218 ay Fcl3 属格319 Fc2 与格
16、20 零形式Fc20 与裕。21 -du Fc21 与格122 -dur Fc22 与格223 - a Fc23 与格324 da Fc24 与格425 du Fc25 与格526 dur Fc26 与格627 Fc3 宾格28 零形式Fc30 宾格。29 yi Fc31 宾格130 yl Fc32 宾格231 Fc4 从格32 零形式Fc40 从格。33 -aca Fc41 从格134 ca Fc42 从格235 daca Fc43 从格336 Fc5 工具格37 bar Fc51 工具格138 bar Fc52 工具格239 Fc6 共同格6 GB/T 26235-2010 表2(续)标记
17、代码序号构形附加成分构形附加成分名称代码说明第一级第二级第三级第四级40 -tar Fc61 共同格141 tay2 Fc62 共同格242 Fc7 联合格43 -lug_a2 Fc71 联合格144 lug_a2 Fc72 联合格245 n Fc8 定格46 Fx 领属范畴xamiyadagulxu 47 Fx1 反身领属48 -ban Fxll 反身领属I49 ban2 Fx12 反身领属250 rlayixanz Fx2 属格领属51 Fx3 与格领属52 -dag且nFx31 与格领属153 dag且nFx32 与格领属254 -yugan2 Fx4 宾格领属55 -acagan2 F
18、x3 从格领属56 -tayigan2 Fx6 同格领属57 Fa 形容词级范畴adjective 58 零形式FaO 原级59 Fa1 比较级60 xan2 Fall 比较级161 btur2 Fa12 比较级262 bir Fa13 比较级363 bor, bur, br Fa14 比较级464 Fm 数词变化形式numeral 65 零形式FmO 基数词66 gad2 Fm1 概数词67 Fm2 序数词68 dugar Fm21 序数词169 daxi2 Fm22 序数词270 dagi2 Fm23 序数词371 gula2 Fm3 集合数词72 ta2 Fm4 次数词73 Fb 祈使式
19、bey_e 7 GB/T 26235-2010 表2(续)标记代码序号构形附加成分构形附加成分名称代码说明第一级第二级第三级第四级74 Fb1 第一人称75 y_a Fbll 第一人称176 sugay Fb12 第一人称277 su Fb13 第一人称378 Fb2 第二人称79 零形式Fb20 第二人称080 gtun Fb21 第二人称181 garay Fb22 第二人称282 gaci Fb23 第二人称383 Fb3 第三人称84 g Fb31 第三人称185 tugay Fb32 第三人称286 gasay Fb33 第三人称387 gujay Fb34 第三人称488 Fs 陈
20、述式state 89 Fs1 过去时90 cay Fsll 过去时191 (;i句Fs12 过去时292 cuxuy Fs13 过去时393 ba Fs14 过去时494 bay Fs15 过去时595 Fs2 现在将来时96 n a Fs21 现在将来时197 muy Fs22 现在将来时298 口lUFs23 现在将来时399 nam Fs24 现在将来时4100 yu Fs25 现在将来时5101 Fs3 界限时102 1 a Fs31 界限时1103 lug_a Fs32 界限时2104 lay Fs33 界限时3105 Fn 副动词n凸xcelj 106 cul Fn1 并列副动词1
21、07 gad Fn2 分离副动词8 GB/T 26235-2010 表2(续)标记代码序号构形附加成分构形附加成分名称代码说明第一级第二级第三级第四级108 n Fn3 联合副动词109 Fn4 立刻副动词110 magea2 Fn41 立刻副动词1111 naran2 Fn42 立刻副动词2112 laran2 Fn43 立刻副动词3113 Fn5 跟随副动词114 xular Fn51 跟随副动词1115 xunar2 Fn52 跟随副动词2116 xul a2 Fn53 跟随副动词3117 xun_a2 Fn54 跟随副动词4118 Fn6 前提副动词119 manJin2 Fn61 前
22、提副动词1120 口lanFn62 前提副动词2121 maJin2 Fn63 前提副动词3122 Fn7 假定副动词123 baF F口71假定1iJJ动词1124 basu2 Fn72 假定副动词2125 Fn8 让步副动词126 bacu2 Fn81 让步副动词1127 yacu2 Fn82 让步副动词2-一-128 tal a2 Fn9 迎接副动词129 FnA 目的副动词130 xar FnA1 目的副动词1131 xuy_a2 FnA2 目的副动词2132 r a2 FnA3 目的副动词3133 FnB 趁机副动词134 ngg_a2 FnB1 趁机副动词1135 ngguta2
23、FnB2 趁机副动词2136 gsagar2 FnC 延续副动词137 run2 FnD 准备副动词138 ngxan2 FnE 情感副动词139 Ft 形动词temdeg 140 Ftl 表示时间141 gsan2 Ft11 表示时间19 GB/T 26235-2010 表2(续)标记代码序号构形附加成分构形附加成分名称代码说明第一级第二级第三级第四级142 xu2 Ft12 表示时间2143 xur Ft1 3 表示时间3144 Ft2 表示体145 dag2 Ft21 表示体1146 a2 Ft22 表示体2147 gaduy2 Ft23 表示体3148 Ft3 表示特征149 mar2
24、 Ft31 表示特征l150 m a2 Ft32 表示特征2151 gi Ft33 表示特征3152 gusitar Ft4 表示值得、应当153 xuyia Ft5 表示程度或者可能性154 Fd 名动词排列155 ltar Fd1 名动词1156 l-tay2 Fd2 名动词2157 Fd3 名动词3158 l-gey Fd31 159 19y Fd32 160 19_a-tar Fd4 名动词4161 19_a-ger Fd5 名动词5162 lta-tar Fd6 名动词6163 lta-ger Fd7 名动词7164 sitay2 Fd8 名动词8165 si-tar Fd9 名动词
25、9166 sl-ugey FdA 名动词A167 Fe 态范畴xeb 168 零形式FeO 自动态169 Fe1 使动态170 guF Fell 使动态1171 19_a2 Fe12 使动态2172 g_a2 Fe13 使动态3173 Fe2 被动态174 gda2 Fe21 被动态1175 da Fe22 被动态210 GB/T 26235-2010 表2(续)标记代码序号构形附加成分构形附加成分名称代码说明第一级第二级第三级第四级176 ldu Fe3 同动态177 lca Fe4 互动态178 cag_a Fe5 众动态179 Fi 体范畴排列180 零形式FiO 普通体181 S X1
26、 Fi1 暂短体182 Fi2 完成体183 cix a Fi21 完成体1184 C、iFi22 完成体2185 gatax_a Fi3 请求完成体186 Jana Fi4 瞬间体187 Fh 附属排列188 Fh1 附属1189 Xl Fh11 190 Xl Fh12 191 Fh2 附属2192 -Xlll Fh21 193 Xlll Fh22 194 -daxi Fh3 附属3195 Xllll Fh4 附属4196 -duni Fh5 附属55.3 其他标记代码其他标记代码见表30表3其他标记代码标记代码序号语文现象/单位类别名称代码说明第一级第二级第三级第四级1 E 字母temde
27、g 2 .¥ Em 蒙古文字母monggol 3 文字.languageEg 非蒙古文字母gadagadu 4 Et 数字tog_a 5 9.a.1I . . Et1 蒙古文数字6 Et2 阿拉伯数字7 1.2.3 Et21 阿拉伯数字1L一一11 GB/T 26235-2010 表3(续)标记代码序号语文现象/单位类别名称代码说明第一级第二级第三级第四级8 , Et22 阿拉伯数字29 (1), (2) , (3) Et23 阿拉伯数字310 Et3 罗马数字11 IIIill Et31 罗马数字112 i ii iii Et32 罗马数字213 damjig gey J 固定词排列14 K
28、 成语排列15 ndege darugsan sibagu sig Kn 名词性成语noun 16 dalan bul c irxay-ban togalaxu Kv 动词性成语verb 17 。moye surgaguli L 缩略语排列18 w 标点排列19 Wp 标点符号punctuatlOn 20 Wp1 蒙古文标点符号21 . Wp2 非蒙古文标点符号22 2 Wu 其他符号universal 23 X 习用语xebsil 24 xalagun cimege Xn 名词性习用语noun 25 nidn-d xalagun Xa 形容词性习用语adjective 26 Y 复合词排列2
29、7 jul jirgal Yn 复合名词noun 28 saym saylxan Ya 复合形容词adjective 29 eylm teylm Yr 复合代词pronoun 30 emun_e xoym_a Yo 复合时位词oron 31 magtan saylslyaxu Yv 复合动词verb 32 yabcab Yd 复合副词adverb 33 Z 连接元音排列34 Zv 连接元音vowel 35 u2 Zv1 连接元音136 a2 Zv2 连接元音237 Zs 连接音节syllable 38 gu Zsl 连接音节139 b Zs2 连接音节212 GB/T 26235-2010 表
30、3(续)标记代码序号语文现象/单位类别名称代码说明第一级第二级第三级第四级40 du Zs3 连接音节341 ye Zs4 连接音节442 n Zx 动态词尾(xdelxnd位s)xdelx 43 y P 不确定词排列一EON-町的NNH阁。华人民共国家标准信息处理用蒙古文词语标记GB/T 26235-2010 国和中信息技术* 中国标准出版社出版发行北京复兴门外三里河北街16号邮政编码:100045 网址电话:6852394668517548 中国标准出版社秦皇岛印刷厂印刷各地新华书店经销导印张1.25 字数27千字2011年6月第一次印刷开本880X 1230 1/16 2011年6月第一版峰书号:155066. 1-42719 21.00元如有印装差错由本社发行中心调换版权专有侵权必究举报电话:(010)68533533定价G8/T 26235-2010 打印H期:2011年6月29RF002