GB T 17961-2010 印刷体汉字识别系统要求与测试方法.pdf

上传人:progressking105 文档编号:232028 上传时间:2019-07-14 格式:PDF 页数:12 大小:242.50KB
下载 相关 举报
GB T 17961-2010 印刷体汉字识别系统要求与测试方法.pdf_第1页
第1页 / 共12页
GB T 17961-2010 印刷体汉字识别系统要求与测试方法.pdf_第2页
第2页 / 共12页
GB T 17961-2010 印刷体汉字识别系统要求与测试方法.pdf_第3页
第3页 / 共12页
GB T 17961-2010 印刷体汉字识别系统要求与测试方法.pdf_第4页
第4页 / 共12页
GB T 17961-2010 印刷体汉字识别系统要求与测试方法.pdf_第5页
第5页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、ICS 35.240.20 L 67 中华人民=:u工./、量2和国国家标准GB/T 17961-2010 代替GB/T17961- 2000 印刷体汉字识别系统要求与测试方法Requirements and test methods for printed Chinese character recognition system 2011-01-14发布苦i马防伪中华人民共和国国家质量监督检验检茂总局中国国家标准化管理委员会2011-05-01实施发布目U吕本标准代替GB/T17961-2000(印刷体汉字识别系统要求与测试方法。本标准与GB/T17961-2000的主要差别如下:一一增加了

2、识别字符集、字体范围及输出文档格式等功能要求;二-提高了识别正确率和识别速度的要求;一-细化了测试方法;增加了资料性附录B和资料性附录C。本标准的附录A是规范性附录,附录B和附录C是资料性附录。本标准由全国信息技术标准化技术委员会提出并归口。本标准主要起草单位:汉王科技股份有限公司、中国电子技术标准化研究所。本标准主要起草人:刘迎建、王欣、刘昌平、刘正珍、陈静、江世盛、李鑫梅。本标准所代替标准的历次版本发布情况为zGB/T 17961-2000。GB/T 17961-2010 I G/T 17961-2010 印刷体汉字识别系统要求与测试方法1 范围本标准规定了印刷体汉字识别系统的功能、技术要

3、求、测试方法等。本标准适用于运行在微型计算机的印刷体汉字识别系统。2 规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GB 2312-1980 信息交换用汉字编码字符集基本集GB 18030-2005信息技术中文编码字符集3 术语和定义下列术语和定义适用于本标准。3. 1 印刷体汉字识别系统printed Chinese character recognition system

4、 运行于微型计算机中,可以将通过光学输入设备转换而成的具有汉字符号的印刷品的图像数据,转化为计算机系统中相应字符的软件系统。3.2 二值图像binary image 用黑白两个灰度级表示的图像。3.3 灰度图像gray scale image 用从黑色到白色之间亮度值表示的图像。3.4 彩色图像color image 表示色彩信息的图像。本标准指用红、绿、蓝三个基色分量表示的图像。3.5 光学输入设备optical input device 利用光电工作原理,把纸介质上的影像信息转换成像素数据输入到计算机中的设备。4 缩暗语BMP HTML JPEG PDF RTF TIFF 位图图片超文本置

5、标语言联合图像专家组格式便携式文档格式富文档格式已标记图像文件格式(Bitmap) (Hyper Text Makeup Language) Ooint Picture Experts Group) (Portable Document Format) (Rich Text Format) (Tagged Image File Format) 1 GB/T 17961-2010 TXT UOF 5 要求5. 1 系统功能要求5. 1. 1 图像输入文本格式(Text) 中文办公软件文档格式(Uniform Office-document Format) 应支持普通纸媒体文本经过光学输入设备采集

6、得到的二值图像、灰度图像和彩色图像的识别。支持打开BMP、TIFF,PEG和PDF格式图像文件的输入方式,并可由光学输入设备直接输人图像。5. 1. 2 版面分析应将版面自动分成块,并正确表明每个块的属性,对文字块还需表明块之间连接关系的逻辑序号。块的属性宜有横排文本、竖排文本、表格和图像4种。应可以人工调整修正版面块、逻辑序号及其属性。5. 1. 3 表格识别应能正确识别表格线,并可将表格和文字建立对应关系。5.1.4 文本识别应能将图像中所包括的印刷符号转换成可编辑的编码文本,并且提供若于识别候选字符。5.1.5 结果输出应能输出UOF、TXT、RTF、PDF和HTML格式。输出为UOF、

7、RTF、PDF和BTML时,能保留文档的版式信息,包括分栏、段落、字号、字体和表格结构信息。5.1.6 校对界面应支持编码文本和图像对应的校对方式。文本显示时,对于可信度较低的宇符,应以差异颜色显示。应能显示当前校对字符的候选字,以便于修改。5.2 性能要求5.2.1 字符集应至少支持GB18030-2005字符集中强制性部分的汉字及附录A中的常用非汉字符号的识别。5.2.2 字体应至少支持宋体、仿宋体、楷体和黑体等常用字体。5.2.3 识别正确率正式出版物及打印质量与其相当的打印文件,GB18030-2005双字节2区(GB2312)中的汉字识别率应不小于98%;其他字符识别率应不小于90%

8、。5.2.4 识别速度在识别系统推荐的应用环境下,识别速度应大于150字/s。6 测试方法6. 1 样本库的建立6. 1. 1 测试样本库测试样本库包含打印样本和实际样本。6. 1.2 打印样本打印样本是由打印样张扫描而成:选用包含5.2.1所述字符集所有字符,分别采用5.2.2中列出的字体,版面排列参考附录C,每页不少于1000个字符,利用激光打印机输出打印样张;通过扫描仪以300 dpi的分辨率以256级灰度扫描上述样张,储存为PEG格式文件,即形成打印样本。6.1.3 实际样本实际样本是由实际样张扫描而成:选用当年正式出版的书籍、报纸和杂志作为实际样张,文字部分为白底黑字,应尽量包含GB

9、18030-2005字符集中强制性部分的汉字及附录A中的常用非汉字符号。GB/T 17961-2010 文本格式应至少包含横排文本、竖排文本、表格和图像,且应至少包含5.2.2中列出的所有字体。字符总数在10万以上,每页不少于1000个字符;通过扫描仪以300dpi的分辨率随机扫描成二值图像、256级灰度图像和24位彩色图像,数量各占总数的1/3,保存的文件格式应至少包含BMP、TIFF,PEG和PDF,即形成实际样本。6.2 图像输入测试选用纸媒体文本,经光学输入设备采集得到二值图像、256级灰度图像和24位移色图像,并分别储存为BMP、TIFF和PDF格式文件,灰度图像和彩色图像还需保存为

10、PEG格式文件。使用被测系统依次打开上述图像文件,判定是否符合5.1.1的要求。被测系统至少可以连接一种光学输入设备,如图像扫描仪,并可直接从该设备获取图像,判定是否符合5.1.1的要求。6.3 版面分析测试选用版面至少包含4个分块的测试样本,块中分别为竖排文本、横排文本、表格和图像。使用被测系统对上述测试样张进行版面分析,判定是否符合5.1.2的要求。对分析得到的版面,验证人工修正功能的有效性。6.4 表格识别测试使用被测系统读人附录B所示表格图像,判定是否符合5.1.3的要求。6.5 文本识别、字特集和字体测试使用被测系统对上述样本库中的打印样本逐个识别,判定是否符合5.1.4、5.2.1

11、和5.2.2的要求。6.6 结果输出现l试使用被测系统对附录B所示测试样张进行识别,依次输出为UOF、TXT、RTF、PDF和HTML格式,判定是否符合5.1.5要求。6. 7 校对界面测试使用被测系统对附录B所示测试样张进行识别后,转到校对界面,判定是否符合5.1.6的要求。6.8 识别正确率测试测试样本为样本库中的所有打印样本和随机抽取的50个实际样本。自动版面分析有误时,可人工修正。识别正确率测试结果按式(1)计算:识别正确率=(C/N) X 100% . . . . . . ( 1 ) 式中:C一一一测试样本中被正确识别的印刷符号数zN一一测试样本中印刷符号总数。6.9 识别速度测试测

12、试样本从样本库中随机抽取,字符总数应不少于10万个。识别速度测试结果按式(2)计算:识别速度=N/T式中zN一一测试样张中印刷符号总数;T一一识别系统从开始读取测试数据至识别结果记录到媒体上所用的时间,可用秒表记录。 ( 2 ) 3 GB/T 17961-2010 附录A(规范性附录)印刷体汉字识别系统应识别的非汉字符号A.1 数字o 1 2 345 6 7 8 9 A.2 大写英文字符ABCDEFGHIJKLMNOPQRSTUVWXYZ A.3 小写英文字符abcdefghijklmnopqrstuvwxyz A.4 西文标点符号! #$%& () *+,一./:;?- I !i ct A.

13、5 中文标点符号.?,。、-. () () (0)¥ 4 GB/T 17961-2010 附录(资料性附录)参考样本B 序号课程名称任课教师序号课程名称任课教师1 数学张平5 历史张英2 语文李英华6 生物程莉莉3 英语黄新7 化学张立骏4 政治刘滨8 物理王欣滑雪场简介散落在度假区内山上山下的餐饮点丰富多彩,雪道旁的苔露丝餐吧主要为外国客人供应意式披萨、炸鱼排等西餐主食和啤酒F大食堂、大花堂东北菜馆、露天小吃广场主要供应东方人口味的饭菜主食和雪地烧烤小吃F熏衣草茶案主要为山顶客人供应南衣草茶、咖啡等热饮。滑雪度假村由国际国内旅游滑雪界富有丰富经验的专业人士经营管理,在国内率先采用了国际标准的

14、雪道色彩分级代码和提示标牌,为滑雪爱好者提供安全、舒适的服务。滑雪场简介滑雪度假村位于首都近郊东北方向的密云县,距县城正南方约3公里,距北京市望和桥62公里。2006年9月京承高速密云段己正式通车,是北京近郊唯一30分钟可到达的滑雪场。该滑雪场占地面积4000余亩,是北京及华北地区唯一集滑雪、滑道、滑翔等动盛放游项目为一体的冬季度假村。度假村地处密云县,雪质优良,景色壮美,气候宜人。项目特点为:休闲滑雪为主,戏雪赏雪为辅,动静结合、老少皆宜。A man is not old as long as he is seeking something. A man is not old until r

15、egrets take the place of dreams. (J. Barrymore)只要一个人还有追求,他就没有老。直到后悔取代了梦想,一个人才算老。(巴里摩尔)5 G/T 17961-2010 附录C资料性附录)参考字体宋体:单板滑雪运动在欧美国家和日本、韩国等亚洲国家普及率很高,从八十年代至今连续多年在冬季运动中排名首位。仿宋体z单板滑雪运动在欧美国家和日本、韩国等亚洲国家普及率很高,从八十年代至今连续多年在冬季运动中排名首位。楷体:羊板滑雪运动在欧美国家和日本、韩国等亚洲国家普及率很高,从八十年代至今连续多年在冬季运动中排名首位。黑体:单板滑雪运动在欧美国家和日本、韩国等亚洲国

16、家普及率很高,从八十年代至今连续多年在冬季运动中排名首位。6 OFON-hFH因。华人民共和国家标准印刷体汉字识别系统要求与测试方法GB/T 17961-2010 国由l祷中国标准出版社出版发行北京复兴门外三里河北街16号邮政编码:100045 网址电话:6852394668517548 中国标准出版社秦皇岛印刷厂印刷各地新华书店经销晤印张O.75 字数13千字2011年5月第一次印刷开本880X12301/16 2011年5月第一版* i号:155066 1-42645定价16.00元如有印装差错由本社发行中心调换版权专有侵权必究举报电话:(010)68533533GB/T 17961-2010 打印日期:2011年6月1R F002A

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 标准规范 > 国家标准

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1