GB T 18790-2002 联机手写汉字识别技术要求与测试规程.pdf

上传人:twoload295 文档编号:267484 上传时间:2019-07-11 格式:PDF 页数:9 大小:194.67KB
下载 相关 举报
GB T 18790-2002 联机手写汉字识别技术要求与测试规程.pdf_第1页
第1页 / 共9页
GB T 18790-2002 联机手写汉字识别技术要求与测试规程.pdf_第2页
第2页 / 共9页
GB T 18790-2002 联机手写汉字识别技术要求与测试规程.pdf_第3页
第3页 / 共9页
GB T 18790-2002 联机手写汉字识别技术要求与测试规程.pdf_第4页
第4页 / 共9页
GB T 18790-2002 联机手写汉字识别技术要求与测试规程.pdf_第5页
第5页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、ICS 35.240. 30 L 67 _,f.岳2.-共王GB/T 18790 2002 、要Requirements and test procedure of on-Iine handwriting Chinese ideogram recognition 2002- 07 -18发布2002 -12 -01实施,iI,. 中华人民共和国国家质量监督检验检疫总局发布G/T 18790-2002 前 t二本标准规定了联机手写汉字识别系统的汉字识别技术要求、测试规程。该标准的制定和实施将规范联机手写汉字识别系统的研究、开发和应用。本标准的附录A和附录B是标准的附录,附录C是提示的附录。本标准

2、由中华人民共和国信息产业部提出。本标准由中国电子技术标准化研究所归口。本标准起草单位g中国电子技术标准化研究所、北京汉王科技有限公司、清华大学电子工程系。本标准主要起草人z刘迎建、王立建、张立清、刘长松、钮兴垦、王宝艾。中华人民共和国国家标准联机手写汉字识别求与试规程GB/T 18790-2002 1. 1 1.2 2 范围Requirements and test procedure of on-line handwriting Chinese ideogram recognition 本标准规定了联机手写汉字识别系统的汉字识别技术要求和测试规程。本标准适用于微型计算机、手持式信息处理设备和

3、数字化电器配置的联机手写汉字识别系统。引用标准下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时,所有版本均为有效。所有标准都会被修订,使用本标准的各方应探讨使用下列标准最新版本的可能性。3 GB 2312-1980信息交换用汉字编码字符集基本集GB 12345-1990信息交换用汉字编码字符集辅助集GB 13000.1-1993 信息技术通用多八位编码字符集(UCS)(idt ISO/IEC 10646: 1993) 第1部分z体系结构GB 18030-2000 信息技术信息交换用汉字编码字符集基本集的扩充定义本标准采用下列定义。3. 1 联机手写数据采集设备on-l

4、ine handwriting data capture device 是指鼠标、手写板、触摸屏等具备实时地将人们书写的汉字及字符轨迹转换成坐标点序列、形成电子数据的设备.3.2 联机手写汉字识别系统on-line handwriting Chinese ideogram recognition system 是指使用微型计算机或具有计算能力的系统,对联机手写电子数据采集设备采集的手写电子数掘进行处理与辨识.获得相应的标准内码的系统。3.3 样本sample 一个完整的、由联机手写电子数据采集设备采集的、符合第4章中的汉字或字符的电子数据称为个样本。3.4 样本文件sample lile 是指

5、由多个样本按附录B数据格式组成的文件,称为样本文件。3. 5 样本库library 01 sample lile 多个同类型样本文件组成的文件集合称为样本库.4 tR别字符集的范围联机手写汉字识别系统识别的最小字符集应是GB2312中全部汉字字符(包括偏旁部首)以及附录A中的非汉字字符。字符扩展时,联机手写汉字识别系统应识别GB12345.或GB18030.或GB申华人民共国家质量监督检验检疫总局22- 07 -18批准2002 -12 -01实施1 L一GB/T 18790-2002 13000. 1字符集中的全部汉字。5 识别技术要求5. 1 识别率5. 1. 1 对工黎样本库的识别要求a

6、)对GB2312中所有汉字的识别率应大于94%, b)对附录A巾的非汉字字符的识别率应大于80%; c)若厂商声明支持GB12345,或GB13000. 1,或GB18030字符集,则以上字符集的识别率应大于85%。们对任何字符集而言,单字识别率应大于50%。5. 1. 2 对乱笔顺样本库的识别要求对乱笔顺样本库,识别率应大于60%。5.2 识别速度在测试软件运行的平台上,识别速度应优于1.5 s/字。6 测试规程6. 1 标准测试样本库的建立a)出信息处理产品标准符合性检测巾心分别用压力式手写板、电磁感应手写板等设备各采集由一定数量的人、在工整书写提示下自然书写的汉字样本,经整理后,建成标准

7、测试样本库;的标准测试样本库巾包括两部分样本,其中一部分是工整书写的样本,称为工整样本库;少部分是人工方式处理的、打乱了笔划顺序的工整样本,称为乱笔顺样本库。6.2 由信息处理产品标准符合性检测中心提供标准测试样本文件的数据格式及结果文件格式,并提供至少一个样本文件,供参测单位调试测试程序。6.3 参测单位向标准符合性测试机构提交联机子写汉字识别技术的测试软件,由信息处理产品标准符合性检测中心测试,并提供测试结果。非微型计算机平台上的参测单位,除测试软件外,还应提供能完成测试工作的运行平台。6.4 测试结果计算6.4.1 识别速度识别速度测试结果按下式计算:式中,N测试样本库中样本总数;识别速

8、度=T/NT 识别系统从开始读取测试数据至将识别结果记录到媒体上所用的时间。6.4.2 识别率识别率测试结果按下式计算=识别率=CN/NN 式中,NN一一样本库中样本总数:CN一一经统计第一选识别结果正确的样本数。6.4.3 单字识别率单字识别率测试结果按下式计算:单字识别$=CS/NS 式中,NS 样本斥中某一汉字的样本总数;CS 经统计第一边识别结果正确的该汉字样本数。2 GB/T 18790-2002 附录(标准的附录)联机手写汉字识别系统的识别字符集的非汉字字符集A 联机手写汉字识别系统至少识别如下非汉字字符z数字g0123456789 大写英文字符zABCDEFGHIJKLMNOPQ

9、RSTUVWXYZ A1 A2 I I $%&普+-./¥ 小写英文字符ga bcdefghiiklmnopqrstuvwxyZ 标点符号2!,-s?、。,( ) 一$-%+铃&.bit6 :扩展符号,包括.-wJ 1 bit7 :手势4个,包括2空格(Ox0020)、回车(OxOOOd)、回JlIIIJ(Ox0008)、删除(Ox0010)bit8.偏旁部首bit9.GB 2312一级国标简体汉字bitl0.GB 2312二级国标简体汉字bitll.GBK 3区中的汉字bit12 :GBK 4区中的汉字bitl3以上2保留返回值2成功,返回旧的识别范围;否则,返回0,参见.OLRecogni

10、ze ,OLGetRange C1.7 DWORD OLGetRange(void) 说明z本函数用来读取识别字符集的范围。返回值2成功,返回当前的识别范围,参见OLSetRange;否则,返回0,参见:OLSetRangeC1.8 int OLSetCandidateNum(int num) 说明z本函数用来设置识别候选字的数量.参数znum!设置识别候选字的数量,缺省值为10.最大值为20,返回值2成功,返回旧的候选字的数量p否则,返回0,F U L _一一一GB!T 18790-2002 参见,OLGetCandidateNum,OLRecognizeC1. 9 int OLGetCan

11、didateNum(void) 说明2本函数用来读取识别候选字的数量。返回值z成功,返回当前的候选字的数量,参见OLSetCandidateNum,否则,返回0。参见,OLSetCandidateNumC1.10 int OLRecognize(WORD椿lpTrace,WORD传lpResult) 说明z本函数用来识别输入的笔迹。参数glpTrace,输入的笔迹数据指针,其空间由应用程序申请,数据类型为WORD(2byte),格式如下z(xO ,yO)(xl , yl). (Oxffff , O). (Oxffff , O). (Oxffff , OxfffO 笔划结束标志鼻字结束标志lpR

12、esult ,存放识别结果的数据指针,其空间由应用程序申请,不应少于自OLSetCandidateN um设字的候选字个数骨6,识别程序将识别结果及可信度得分填入其中。每个结果占2-4个字节(参见GD18030),半角字符和手势结果均为两字节,其高位均为0。全部识别结果之后是每个结果的可信度得分,每个得分表示为1个WORD,按照识别结果排列的顺序排列。例如,共有4个识别结果=啊阿可何飞可信度得分分别为,100,90,80,70,那么,lpResult中的排列顺序就是:啊,阿,可,何,100,90,80,70,返回值:成功,返回识别结果的个数g拒识,返回0,参见,OLSetRange,OLSet

13、CandidateNum 备注21 WORD=2 BYTE,可定义为jj:define WORD unsigned short int。1 DWORD=2 WORD,可定义为jj:define DWORD unsigned int (32位系统)或jj:defineDWORD unsigned long int(l6位系统)。6 一一中华人民共和国国家标准联机手写汉字识别技术要求与测试规程GB/T 18790-2002 中国标准出版社出版北京复兴门外三里河北街16号邮政编码,100045电话,6852394668517548 中国标准出版社秦皇岛印刷厂印刷新华书店北京发行所发行各地新华书店经售句岳开本880X12301/16 印张3/4字数14干字2002年12月第一版2002年12月第一次印刷印数1一1500 电岳书号,155066. 1-19086 网址电晦科目631-474版权专有侵权必究举报电话,(010)68533533

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 标准规范 > 国家标准

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1