1、ICS 35.240.30L 67中华人民共和国国家标准Gs/T 18790-2002联机手写汉字识别技术要求与测试规程Requirements and test procedure ofon-line handwriting Chinese ideogram recognition2002一07一18发布2002一12一01实施中华国家质人民共和国量监督检验检疫总局发布ca/T 18790-2002前言本标准规定了联机手写汉字识别系统的汉字识别技术要求、测试规程该标准的制定和实施将规范联机手写汉字识别系统的研究、开发和应用。本标准的附录A和附录B是标准的附录,附录C是提示的附录。本标准由中华
2、人民共和国信息产业部提出。本标准由中国电子技术标准化研究所归口。本标准起草单位:中国电子技术标准化研究所、北京汉王科技有限公司、清华大学电子工程系。本标准主要起草人:刘迎建、王立建、张立清、刘长松、钮兴显、王宝艾。中华人民共和国国家标准联机手写汉字识别技术要求与测试规程GB/T 18790-2002Requirements and test procedure ofon-line handwriting Chinese ideogram recognition范围1.,本标准规定了联机手写汉字识别系统的汉字识别技术要求和测试规程。1.2本标准适用于微型计算机、手持式信息处理设备和数字化电器配置
3、的联机手写汉字识别系统。2引用标准下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时,所有版本均为有效。所有标准都会被修订,使用本标准的各方应探讨使用下列标准最新版本的可能性。GB 2312-198。信息交换用汉字编码字符集基本集GB 12345-199。信息交换用汉字编码字符集辅助集GB 13000. 1-1993信息技术通用多八位编码字符集(UCS)第1部分:体系结构(idt ISO/IEC 10646:1993)GB 18030- 2000信息技术信息交换用汉字编码字符集基本集的扩充3定义本标准采用下列定义。3.1联机手写数据采集设备on-line handwri
4、ting data capture device是指鼠标、手写板、触摸屏等具备实时地将人们书写的汉字及字符轨迹转换成坐标点序列、形成电子数据的设备。3.2联机手写汉字识别系统on-line handwriting Chinese ideogram recognition system是指使用微型计算机或具有计算能力的系统,对联机手写电子数据采集设备采集的手写电子数据进行处理与辨识,获得相应的标准内码的系统。3.3样本sample一个完整的、山联机手写电子数据采集设备采集的、符合第4章中的汉字或字符的电子数据称为一个样本。3.4样本文件sample file是指由多个样本按附录B数据格式组成的文
5、件,称为样本文件3.5样本库library of sample file多个同类型样本文件组成的文件集合称为样本库。4识别字符集的范围联机手写汉字识别系统识别的最小字符集应是GB 2312中全部汉字字符(包括偏旁部首)以及附录A中的非汉字字符。字符扩展时,联机手写汉字识别系统应识别GB 12345,或GB 18030,或GB中华人民共和国国家质f监督检验检疫总局2002-07-18批准2002-12-01实施tGB/T 18790-200213000.1字符集中的全部汉字。识别技术要求5.1识别率5.1.1对工整样本库的识别要求a)对GB 2312中所有汉字的识别率应大于9400;b)对附录A
6、中的非汉字字符的识别率应大于80%;c)若厂商声明支持GB 12345,或GB 13000. 1,或GB 1803。字符集,则以上字符集的识别率应大于850o0山对任何字符集而言,单字识别率应大于50%.5.1.2对乱笔顺样本库的识别要求对乱笔顺样本库,识别率应大于600005.2识别速度在测试软件运行的平台上,识别速度应优干1. 5 s/字。6测试规程6门标准测试样本库的建立a)由信息处理产品标准符合性检测中心分别用压力式手写板、电磁感应手写板等设备各采集由一定数量的人、在工整书写提示下自然书写的汉字样本,经整理后,建成标准测试样本库;b)标准测试样本库中包括两部分样本,其中一部分是工整书写
7、的样本,称为工整样本库;少部分是人工方式处理的、打乱了笔划顺序的工整样本,称为乱笔顺样本库。6.2由信息处理产品标准符合性检测中心提供标准测试样本文件的数据格式及结果文件格式,并提供至少一个样本文件,供参测单位调试测试程序。6.3参测单位向标准符合性测试机构提交联机手写汉字识别技术的测试软件,由信息处理产品标准符合性检测中心测试.并提供测试结果。非微型计算机平台上的参测单位,除测试软件外,还应提供能完成测试工作的运行平台。6.4测试结果计算6.4.1识别速度识别速度测试结果按下式计算;识别速度=TIN式中:N一测试样本库中样本总数;T识别系统从开始读取测试数据至将识别结果记录到媒体上所用的时间
8、。6.4.2识别率识别率测试结果按下式计算:识别率=CNINN式中:NN-一样本库中样本总数;CN一一经统计第一选识别结果正确的样本数6.4. 3单字识别率单字识别率测试结果按下式计算:式中:NS(几S单字识别率一CSINS一一样本库中某一汉字的样本总数;经统计第一选识别结果正确的该汉字样本数。GB/T 18790-2002附录A(标准的附录)联机手写汉字识别系统的识别字符集的非汉字字符集联机手写汉字识别系统至少识别如下非汉字字符:数字:0123456789大写英文字符:ABCDEFGHIJK1,MN0PQRSTUVWXYZ小写英文字符:abcdefghijkImnopqrstuvwxyz标点
9、符号:!”,:;?、。()一()#$%回删(0x0008):删除(Ox001e):附录B(标准的附录)标准测试样本文件格式本附录规定了标准测试样本库中的样本文件的扩展名和文件格式。本附录对于提供和使用联机手写汉字识别系统的各方提出共同遵守的约定。B1标准测试样本文件的扩展名标准测试样本文件的扩展名统一为“. POT“,B2标准测试样本文件格式文件格式:标准测试样本文件中存放的是连续的POT数据块;无其他额外的格式信息POT数据块定义:每个POT数据块中包含一个手写汉字的字型采样数据和内码等信息,详见下表。位移内容0 WORD数据块长度,以字节(BYTE)为单位,假设为。2 DWORD本数据块所
10、代表的汉字内码,例如“啊”二oxooooboa16 WORD手写样本的总笔划数,假设为NGB/T 18790-20028 WORD10WORD第一笔的第一个点的X方向坐标值第一笔的第一个点的Y方向坐标值、VORDi+l WORDOxFFFF,第一笔的结束标志0x0000,第一笔的结束标志n-7 WORD OxFFFF,第N笔的结束标志n-5 WORD 0x0000,第N笔的结束标志。一3 WORD OxFFFF,本字的结束标志,一1 WORD OxFFFF,本字的结束标志其中:1 WORD=2 BYTE(低字节在前,高字节在后),例如:0x1234,在文件中的字节排列顺序为34 H,12 H;
11、1 DWORD=2 WORD(低字在前,高字在后),例如:0x12345678,在文件中的字节排列顺序为78 H,56 H,34 H,12 He附录C(提示的附录)联机手写汉宇识别系统程序接口规范本附录定义了基于标准C语言的联机手写汉字识别程序接口规范。本附录对于提供和使用联机手写汉字识别系统的各方提出共同遵守的约定。Cl API文本细则全部接口函数共10个,分列如下:Cl. 1 char,OLGetBrand (void)说明:获得识别程序的提供厂商和版本说明。返回值;成功,返回一个字符串指针,最多1024个字符;否则,返回。Cl. 2 DWORD OL,GetVersion(void)说明
12、:获取识别程序版本号。返回值:成功,返回识别程序版本号,高字为主版本号,低字为子版本号;否则,返回。Cl. 3 char - OLGet Date(void)说明:获取识别程序的提交时间。返回值:成功,返回一个字符串指针,其中时间以“yyyy-mm-dd”形式提供;否则,返回。Cl. 4 int OLInit(void)说明:本函数用来初始化识别程序,装人识别字典。返回值:GB/T 18790-2002成功,返回一个非零值;否则,返回0,Cl. 5 int OLClose(void)说明:本函数用来释放识别字典。返回值:成功,返回非零;否则,返回。参见:OLInitC1.6 DWORD OI.
13、SetRange(DWORD range)说明:本函数用来设置识别字符集的范围。参数:range:指定的识别范围。定义如下:bit0:小写英文bitl:大写英文bit2:数字bit3:常用标点S个,包括:,。、?!”:;bit4:扩展标点,包括:().二()一bits:常用符号,包括:y#一/$一写+否则,返回。参见:OLRecognize,OLGetRangeC1.7 DWORD OI.GetRange(void)说明:本函数用来读取识别字符集的范围。返回值:成功,返回当前的识别范围,参见OLSetRange;否则,返回。参见:OLSetRangeC1. 8 int OLSetCandida
14、teNum(int num)说明:本函数用来设置识别候选字的数量。参数:num:设置识别候选字的数量,缺省值为10,最大值为20.返回值:成功,返回旧的候选字的数量;否则,返回。GB/T 18790-2002参见:OLGetCand idateN um, OLRecognizeC1. 9 int 01.GetCandidateNum(void)说明:本函数用来读取识别候选字的数量。返回值:成功,返回当前的候选字的数量,参见OLSetCandidateNum;否则,返回。参见:OLSetCandidateNumC1.10 int Ol_Recognize(WORD,1pTrace, WORD*I
15、pResult)说明:本函数用来识别输人的笔迹。参数:IpTrace输人的笔迹数据指针,其空间由应用程序申请,数据类型为WORD(2 byte),格式如下:(XO,YO(xl,yl). (Oxffff,O. (Oxffff,O. (Oxffff,Oxffff)笔划结束标志一字结束标志IpResult:存放识别结果的数据指针,其空间由应用程序申请,不应少于由OLSetCandidateNum设字的候选字个数二6;识别程序将识别结果及可信度得分填人其中。每个结果占2-4个字节(参见GB 18030);半角字符和手势结果均为两字节,其高位均为。全部识别结果之后是每个结果的可信度得分,每个得分表示为1个WORD,按照识别结果排列的顺序排列。例如,共有4个识别结果:“啊阿可何”,可信度得分分别为:100,90,80,70;那么,如Result中的排列顺序就是:啊,阿,可,何,100,90,80,70.返回值:成功,返回识别结果的个数;拒识,返回。参见:OLSetRange,OLSetCandidateNum备注:1 WORD=2 BYTE;可定义为#define WORD unsigned short into1 DWORD=2 WORD.可定义为#define DWORD unsigned int(32位系统)或#define DWORDunsigned long int(16位系统)
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1