GB T 13715-1992 信息处理用现代汉语分词规范.pdf

上传人:confusegate185 文档编号:266872 上传时间:2019-07-11 格式:PDF 页数:11 大小:362.10KB
下载 相关 举报
GB T 13715-1992 信息处理用现代汉语分词规范.pdf_第1页
第1页 / 共11页
GB T 13715-1992 信息处理用现代汉语分词规范.pdf_第2页
第2页 / 共11页
GB T 13715-1992 信息处理用现代汉语分词规范.pdf_第3页
第3页 / 共11页
GB T 13715-1992 信息处理用现代汉语分词规范.pdf_第4页
第4页 / 共11页
GB T 13715-1992 信息处理用现代汉语分词规范.pdf_第5页
第5页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、中华人民共和国国家标准信息处理用现代汉语分词规范发布实施国家技术监督局发布中华人民共和国国家标准信息处理用现代汉语分词规范国家技术监督局批准实施主题内容与适用范围主题内容本规范规定了现代汉语的分词原则以满足信息处理的需要它对汉语信息处理的规范化对各种汉语信息处理系统之间的兼容性有重要的作用适用范围本规范适用于汉语信息处理各领域其他行业和有关学科可以参考使用汉语信息处理各领域可以根据其专门需求进一步补充和细化本规范的规定引用标准汉语信息处理词汇术语以下术语引自汉语信息处理用计算机对汉语的音形义等信息进行的处理词最小的能独立运用的语言单位词组由两个或两个以上的词按一定的语法规则组成表达一定意义的语

2、言单位分词单位汉语信息处理使用的具有确定的语义或语法功能的基本单位它包括本规范的规则限定的词和词组汉语分词从信息处理需要出发按照特定的规范对汉语按分词单位进行划分的过程概述本规范以信息处理应用为目的根据现代汉语的特点及规律规定现代汉语的分词原则本规范用下划线作为分词单位标记空格或标点符号是计算机中分词单位的分隔标记作为分隔标记的标点符号有句号逗号顿号分号冒号问号叹号引号括号破折号省略号书名号间隔号连接号及符号等二字或三字词以及结合紧密使用稳定的二字或三字词组一律为分词单位例如发展可爱红旗对不起自行车青霉素四字成语一律为分词单位例如胸有成竹欣欣向荣四字词或结合紧密使用稳定的四字词组一律为分词单位

3、例如社会主义春夏秋冬由此可见五字或五字以上的谚语格言等分开后如不违背原有组合的意义应予切分例如时间就是生命失败是成功之母人心齐泰山移结合紧密使用稳定的词组分开后如违背原有组合的意义或影响进一步的处理则不予切分例如不管三七二十一惯用语和有转义的词或词组在转义的语言环境下一律为分词单位例如妇女能顶半边天他真小气象个铁公鸡略语一律为分词单位例如科技奥运会工农业分词单位加形成儿化音的儿一律为分词单位例如花儿悄悄儿玩儿在现代汉语中出现的非汉字符号例如其他语言的字符串数学符号化学符号阿拉伯数字等仍保留原有形式例如现代汉语中其他语言的汉字音译外来词不予切分例如巧克力吉普不同的语言环境中的同形异构现象按照具体

4、语言环境的语义根据本规范的规定进行切分例如把手抬起来这个把手是木制的具体说明为叙述方便本规范沿用了把词分为名词动词形容词代词数词量词副词介词连词助词语气词叹词象声词等十三类的方法名词普通名词二字的名词或结合紧密的二字名词词组一律为分词单位例如火车牛肉钢铁结合紧密分开后如违背原有组合的意义的名词性词组一律为分词单位例如有功功率被子植物由形容词加名词组成的词组应予切分例如绿叶小床形容词加名词组成的有转义的词组一律为分词单位例如小媳妇戴高帽儿前加成分加名词性分词单位应为分词单位例如阿哥老鹰非金属超声波名词性分词单位加如下类型的后加成分家手性员子化长头者应为分词单位例如科学家拖拉机手革命性理发员椅子标

5、准化科长木头学者名词性分词单位后如有多个后加成分则它们是一个分词单位例如物理学家名词性分词单位前后如有前加成分和后加成分则它们是一个分词单位例如非党员超导性各类专业的基本术语为分词单位例如加速度中央处理器方位词应予单独切分例如桌子上长江以北除人们之外仅表示前一个名词性分词单位复数的们单独切分例如朋友们学生们但是哥儿们爷们儿等是分词单位时间名词或词组的分词规则如下一年的十二个月份以及每周的七天一律为分词单位例如五月元月月星期日礼拜三年日时分秒分别为分词单位例如年月日时分秒前后上下大前大后等直接与时间名词或量词组合时它们为一个分词单位例如前天后年上星期下月大前天大后年初加十以内的数字一律为分词单位

6、例如初一初八专有名词人名称谓等处理如下汉族人名的姓和名分别单独切分例如张胜利欧阳海其他国家其他民族的人名按其习惯形式切分例如卡尔马克思牛顿小林多喜二才旦卓玛带职务职称的称呼一律切分例如张教授王部长李师傅简称尊称等为分词单位例如老张小李郭老陈总带排行的亲属称谓一律切分例如三叔大女儿民族名地名中的族省市州县乡区江河山等应单独切分但包括族省市州县乡区江河山等只有两个字的民族名地名则不予切分例如汉族哈萨克族北京市浙江省正定县长江忻县专名部分不能单独存在而保持原有意义的地名不予切分例如牡丹江横断山街路村镇名称各大洋和各大海一律为分词单位例如长安街学院路周口店刘家村大西洋地中海国家全名一律为分词单位例如中

7、华人民共和国大不列颠及北爱尔兰联合王国组织机构单位的全名按组成其全名的分词单位切分例如联合国教科文组织中国共产党商品牌号品种产品系列名称中的专有名词与普通名词一律分别切分例如永久牌中华烟牡丹型动词动词的重叠形式较多具体规定如下单字动词重叠使用为一个分词单位例如看看动动二字动词性分词单位的重叠方式为一个分词单位例如来来往往拉拉扯扯重叠形式的动词词组应予切分例如说说看研究研究一了了一重叠形式的动词词组应予切分例如谈一谈想一想读一读想了想想了一想动词前的否定副词一律单独切分例如不写不能没研究未完成用肯定加否定的形式表示疑问的动词词组一律切分不完整的则不予切分例如说没说看不看相信不相信相不相信动宾结构

8、的词或结合紧密使用稳定的二字动宾词组不予切分例如开会跳舞解决吃饭问题孩子该念书了结合不紧密或有众多与之相同结构词组的动宾词组一律切分例如吃鱼学滑冰写信写文章写论文写书动宾结构的词或词组如中间插入其他成分则应予切分例如吃两顿饭跳新疆舞动补结构的二字词或结合紧密使用稳定的二字动补词组不予切分例如打倒提高加长做好或结构的动补词组一律切分三字以上的动补结构词组也一律切分例如整理好说清楚解释清楚动补结构的词或词组如中间插入得不应予切分例如打得倒提不高偏正结构的词以及结合紧密使用稳定的偏正结构的词组不予切分否则应予切分例如胡闹瞎说死记早来晚走重说复合趋向动词一律为分词单位例如出去进来当插入得不时应予切分例

9、如出得去进不来动词与趋向动词结合的词组一律切分例如寄来跑出去单字动词无连词并列并且均保持各自独立动词意义的词组一律切分例如苫盖听说读写多字动词无连词并列一律切分例如调查研究宣传鼓动形容词形容词的重叠形式里一律为分词单位例如大大高高高高兴兴匆匆忙忙绿油油红通通蒙蒙亮马里马虎重叠形式的形容词应予切分例如雪白雪白滚圆滚圆一一一二半半半不有有等类型的形容词性词组不予切分例如一心一意一清二楚半明半暗半生不熟有条有理形容词的并列形式按以下规则切分两个单字形容词并列且改变词性的一律不予切分例如长短深浅大小形容词并列且各自保持原有形容词语义的词组应予切分例如大小尺寸光荣伟大有关颜色的形容词或词组不予切分例如浅

10、黄橄榄绿用肯定加否定的形式表示疑问的形容词词组一律切分不完整的则不切分例如容易不容易容不容易代词单字代词加们为分词单位例如我们你们它们他们这那哪加量词个或些样么里边等为一个分词单位例如这个这么这边那些那样那里哪个哪里哪些这那哪加数量名词性分词单位一律切分例如这十天那人那种疑问代词或词组为分词单位例如多少怎样为什么什么各每某本该此全等代词与后面的量词或名词一律切分例如各国每种某工厂本部门该单位此人全校数词数词与量词一律切分例如三个一种汉语数位词分别为分词单位例如一亿八千零四万七百二十三表示序数的第与后面的数词一律切分例如第一第四第五十三分数中的分之为一个分词单位例如五分之三百分之二万分之五数字并

11、列表示概数时表示概数的数字为分词单位例如八九公斤十七八岁表示概数的多来几等在数词或量词之后时一律为分词单位例如两点多一千多人十来家十几个些一些点儿一点儿等表示概数的词在形容词或动词之后时一律切分例如大些懂一些快点儿快一点儿近约数等在数词或数位词前与之连用表示概数时应予切分例如近千人约三百数万成上在数位词前与之连用表示概数时不予切分例如成百上千量词量词重叠使用不予切分例如年年天天个个家家户户复合量词或词组为分词单位例如人年人次架次吨公里副词副词一律为分词单位例如很好都来了刚走互相协助以下经常使用起副词作用的词组为分词单位越来越不得不不能不起关联作用的越越又又等应予切分例如越走越远又香又甜介词介词

12、一律为分词单位例如生于走向胜利按照规定连词连词一律为分词单位例如工人和农民光荣而伟大助词结构助词的地得之一律为分词单位例如他的书慢慢地走说得快美丽的城市中国的大熊猫成功之路时态助词着了过一律为分词单位例如看着看了看过助词所与其后的动词一律切分例如所想所认识语气词语气词一律为分词单位例如你好吗快去吧叹词叹词一律为分词单位例如啊真美唉呀他走了象声词象声词一律为分词单位例如嘟当当轰隆隆附录分词举例参考件略语离退休零部件石化火电四化农副业亚运会联大教委奥委会环保惯用语及有转义的分词单位喝西北风闲人免进好家伙对台戏进一步吃香吃醋批复这件事真扎手进一步说动宾结构或结构的动宾词组一律切分开窍上班讲课洗澡开学

13、开锁进兵进村生病生火生炉子动补结构毁坏耗尽认清了不起来得及搞好搞活搞脏打倒打坏看透看清楚偏正结构火热冰冷滚烫感冒药象牙兔牙农药兽药创建新建原油原书主谓结构眼红性急人造民办头痛于的处理介词对于关于由于于作为后加成分属于在于敢于善于于作为助词生于应用于出现于逝世于不作为前加成分的几种情况不好不送不禁不能能愿动词切分开不论连词趋向动词提出发起指出引起已是词售出拿起购进走进寄来跑出去前后加成分完全虚化的前后加成分阿哥阿妹阿爸初一初五初十老鹰老头老张儿子桌子鞋子花儿悄悄儿玩儿石头枕头木头党员运动员演员学者作者压迫者党性规律性酸性现代化深化蜕化科学家作家发明家枪手拖拉机手爆破手部分虚化的前后加成分超导体超时代多边形多功能泛神论泛希腊可爱可采纳泥巴接头词接尾词被打倒代军长所称赞侦察班进度表工具厂航空馆棉花库工程师室展销楼副部长计算机处附加说明本标准由中华人民共和国机械电子工业部提出本标准由北京航空航天大学燕山公司系统部北京师范大学中国标准技术咨询服务中心机电部计算机与微电子中心北京语言学院水电科学院计算所中国软件技术公司机电部第四研究所负责起草

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 标准规范 > 国家标准

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1