1、ICS 35.240.20 L 67 道昌中华人民圭七和国国家标准G/T 18790-2010 代替GB/T18790-2002 联机手写汉字识别系统技术要求与测试规程Requirements and test procedure of on-line handwriting Chinese character recognition system 2011-01-14发布2011-05-01实施数码防伪中华人民共和国国家质量监督检验检疫总局中国国家标准化管理委员会发布目。吕本标准代替GB/T18790-2002(联机手写汉字识别技术要求与测试规程。本标准与GB/T18790-2002的主要差
2、别如下:一一扩大了识别字符集的范围;-一一增加了识别系统应具备的功能;删除了GB/T18790-2002的附录C。本标准的附录A和附录B是规范性附录。本标准由全国信息技术标准化技术委员会提出并归口。本标准主要起草单位:汉王科技股份有限公司、中国电子技术标准化研究所。本标准主要起草人:刘迎建、陈静、钮兴旦、王欣、李鑫梅。本标准所代替标准的历次版本发布情况为:-GB/T 18790-20020 G/T 18790-2010 I GB/T 18790-2010 1 范围联机手写汉字识别系统技术要求与测试规程本标准规定了联机手写汉字识别系统的技术要求和测试规程。本标准适用于微型计算机、手持式信息处理设
3、备等数字化设备中使用的联机手写汉字识别系统。2 规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GB 18030一2005信息技术中文编码字符集3 术语和定义下列术语和定义适用于本标准。3. 1 联机手写数据采集设备on-Iine handwriting device 可将人们书写的汉字及字符轨迹实时转换成坐标点序列并形成电子数据的设备,如手写板、触摸屏、鼠标等。3.2 联机手
4、写汉字识别系统on-Iine handwriting Chinese character recognition system 运行于微型计算机、手持式信息处理设备等具有计算能力的系统中,可将联机手写数据采集设备采集的汉字手写数据进行处理与辨识,输出相应的汉字标准字符的软件系统。3.3 3.4 3.5 3.6 3. 7 样本sample 一个完整的、由联机手写数据采集设备采集的、符合附录B规定数据格式的数据称为一个样本。样本文件sample file 由多个样本按附录B规定的数据格式组成的文件。样本库Iibrary of sample files 多个同类型样本文件组成的文件集合。工整样本库I
5、ibrary of printed-handwriting sample 由书写者使用联机手写数据采集设备、在工整书写提示下自然书写的汉字样本组成的样本库。乱笔顺样本库Iibrary of random-stroke-order sample 以随机方式打乱了笔划顺序的汉字样本组成的样本库。1 G/T 18790-2010 3.8 自由手写体样本库Iibrary of cursive-handwriting sample 由书写者使用联机手写数据采集设备、在自由书写提示下按照自身书写习惯自然书写的汉字样本组成的样本库。3.9 平均首选识别率average accuracy of hit-in
6、1 首选正确的样本数与样本库中样本总数的比值。注:测试过程中,如识别系统对被测样本给出的首个候选字是正确结果,则该样本为首选正确的样本。3.10 平均十选识别率average acc町acyof hit-in 10 十选正确的样本数与样本库中样本总数的比值。注:测试过程中,如识别系统对被测样本给出的前10个候选字中包含正确结果,则该样本为十选正确的样本。4 技术要求4. 1 识别字符集的范围4. 1. 1 汉字字符联机手写识别系统识别的汉字字符集应为GB18030-2005中的全部汉字,或至少包括GB 180302005强制性部分中的全部汉字。4. 1. 2 非汉字字符联机手写汉字识别系统识别
7、的非汉字字符应包括数字、拉丁字母、西文标点和符号、中文标点和符号,以及手写控制符,见附录Ao4.2 识别率4.2.1 对工整样本库的识别要求a) 对GB18030一2005中强制性部分汉字的平均首选识别率应大于95%;b) 对附录A中的非汉字字符的平均首选识别率应大于80%; c) 对支持GB18030-2005中的全部汉字字符的产品,平均首选识别率应大于85%。4.2.2 自由手写体库识别要求对自由手写体样本库的平均十选识别率应大于90%。4.2.3 对乱笔顺样本库的识别要求对乱笔顺样本库的平均十选识别率应大于80%。4.3 功能要求4.3.1 候选字联机手写识别系统应具备候选宇功能。4.3
8、.2 词组联想功能联机手写识别系统应具备词组联想功能。4.3.3 用户笔迹自适应联机手写识别系统应具备用户笔迹自适应功能。即,当用户确认正确的识别结果出现在候选字中(非首选)时,识别系统可以自动学习当前对应的用户笔迹,使得当用户以后再次输入同一笔迹时,正确结果可以出现在首选结果中。4.3.4 倾斜字识别联机手写识别系统应具备倾斜字识别功能。即,给定屏幕内的垂直坐标为00方向,识别系统应能正确识别士450以内倾斜方向书写的用户笔迹。4.3.5 混合识别联机手写识别系统应具备识别中、英、数、符混合输入的功能。即,当用户手写输入汉字、英文字母、2 G/T 18790-2010 数字、符号时,用户不需
9、要设定或改变当前识别范围,识别系统就可以识别所有笔迹。4.3.6 筒(体)繁(体)转换联机手写识别系统应具备写繁出简的功能,即当用户书写笔迹为繁体字时,系统自动输出为对应的简体字识别结果;同时应提供选项设置,以实现写简出繁、写繁出繁。5 测试规程5. 1 测试样本库测试样本库包括工整样本库、乱笔顺样本库和自由手写体样本库。5.2 测试样本库的建立5.2.1 工整样本库的建立使用联机手写数据采集设备,采集出一定数量的书写者按照笔JI民规范工整书写的汉字及符号的笔迹数据。数据套数不应少于30套,书写者的数量不应少于30人,同一书写者不能重复书写相同字符。应选取不同年龄、不同性别、不同文化程度的书写
10、者。每套数据的内容,应包含GB18030 -2005中全部或强制性部分包含的所有汲字,及附录A中列出的所有字符。5.2.2 笔JI民样本库的建立将工整样本库中的样本,以随机方式打乱笔JI因后形成乱笔JI民样本库。5.2.3 自由手写体样本库的建立使用联机手写数据采集设备,采集由一定数量的书写者按照自身书写习惯书写的汉字及符号的笔迹数据。数据套数不应少于30套,书写者的数量不应少于30人,同一书写者不能重复书写相同字符。应选取不同年龄、不同性别、不同文化程度的书写者。每套数据的内容,应包含GB180302005强制性部分中双字节编码2区包含的所有汉字,及附录A中列出的所有字符。5.3 测试方法5
11、.3. 1 识别字符集的范围使用被测联机手写识别系统,对全部工整样本进行识别,验证系统所能识别的汉字字符及非汉字字符,应符合4.1的要求。5.3.2 识别率使用被测联机手写识别系统,分别对全部工整样本和乱笔JI匮样本进行识别,记录每个样本中每个字符的识别结果,并按下列公式计算平均首选识别率和平均十选识别率w平均首选识别率=CN/NN( 1 ) 式中:NN 样本库中样本总数;CN一一经统计首选识别结果正确的样本数。平均十选识别率=CN10/NN. ( 2 ) 式中:NN一一样本库中样本总数;CN10-经统计前10选识别结果中包含正确结果的样本数。5.3.3 功能要求采用被测联机手写识别系统进行实
12、际输入,判定是否具备4.3要求的各项功能。3 GB/T 18790-2010 附录A(规范性附录)联机手写汉字识别系统的识别字符集中的非汉字字符集联机手写汉字识别系统至少应识别如下非汉字字符:A.1 数字o 1 2 3 4 5 6 789 A.2 大写英文字符ABCDEFGHIJKLMNOPQRSTUVWXYZ A.3 小写英文字符abcdefghijklmnopqrstuvwxyz A.4 西文标点、符号!#$%& 0丰+,一./: ; ¥ A.6 手写控制符手写控制符与内码对应关系见表A.l。表A.1手写控制符与内码对应关系名称/Name内码/Code手写控制符/Figure退格/Back
13、spaceOx0008 电市tl表/TabOx0009 回车/Return OxOOOD 4 空格/Space Ox0020 撤销/Undo(Ctrl十z)OxOOlA -z 拷贝/Copy(Ctrl+C)OxOOlB -C 粘贴/Paste(Ctrl十v)OxOOlC -v 剪/Cut(Ctrl+X)OxOOlD -X Tab、Return、Space书写时均要求宽度大于高度。u.要求一笔写成,不能写成两笔的勺.字。注:图中的箭头只表示书写方向,不需要书写。4 GB/T 18790-2010 附录B(规范性附录)关于标准测试样本文件的规定本附录规定了标准测试样本库中的样本文件的扩展名和文件格
14、式。本附录对于提供和使用联机手写汉字识别系统的各方提出共同遵从的约定。B.1 标准测试样本文件的扩展名标准测试样本文件的扩展名统一为.POToB.2 标准测试样本文件格式文件格式:标准测试样本文件中存放的是连续的POT数据块;无其他额外的格式信息。POT数据块定义:每个POT数据块中包含一个手写汉字的字型采样数据和内码等信息,详见下表。位移o WORD 2 DWORD 6 WORD 8 WORD 10 WORD i WORD i+1 WORD n一7WORD n-5 WORD n-3 WORD n-1 WORD 内容数据块长度,以字节(BYTE)为单位,假设为n本数据块所代表的汉字内码,例如啊
15、=oxOOOObOa1 于写样本的总笔划数,假设为N第一笔的第一个点的X方向坐标值第一笔的第一个点的Y方向坐标值OxFFFF,第一笔的结束标志OxOOOO,第一笔的结束标志OxFFFF,第N笔的结束标志OxOOOO,第N笔的结束标志OxFFFF,本字的结束标志OxFFFF,本字的结束标志注:1 WORD=2 BYTE(低字节在前,高字节在后),例如:Ox1234,在文件中的字节排列顺序为34H,12H;1 DWORD = 2 WORD(低字在前,高字在后),例如:Ox12345678,在文件中的字节排列顺序为78H,56H,34H,12H. 5 EON-omhFH因。华人民共和国家标准联机手写汉字识别系统技术要求与测试规程GB/T 18790一2010国中* 中国标准出版社出版发行北京复兴门外三里河北街16号邮政编码:100045网址电话:6852394668517548 中国标准出版社秦皇岛印刷厂印刷各地新华书店经销陪印张O.75 字数11千字2011年5月第一次印刷开本880X12301/16 2011年5月第一版晤书号:155066 1-42649定价16.00元如有印装差错由本社发行中心调换版权专有侵权必究举报电话:(010)68533533GB/T 18790-2010 打印日期:2011年5月19日F002A