1、新闻出版内容资源加工规范 第 4 部分:数据加工质量 2014-01-29 发布 2014-01-29 实施 中华人民共和国新闻出版行业标准 Specification of content resource processing in press and publication Part 4: Data processing quality CY/T 101.42014 ICS 35.240.30 L70 发 布中华人民共和国国家新闻出版广电总局 I 前言nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnulln
2、ullnullnullnull I 1范围 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 1 2规范性引用文件 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 1 3术语和定义 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 1 4数据质量结构和要求 nullnullnullnu
3、llnullnullnullnullnullnullnullnullnullnullnullnullnull 2 4.1数据质量结构 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 2 4.2质量评定基本流程 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 2 4.3完整性 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull
4、 2 4.4规范性 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 3 4.5有效性 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 3 4.6准确性 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 3 5质量准确性评定 nullnullnullnullnullnullnullnu
5、llnullnullnullnullnullnullnullnullnullnull 3 5.1质量准确性评定原则 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 3 5.2评定方法 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 3 5.3差错率计算 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 3 5.4检测抽样范
6、围 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 3 5.5质量准确性要求和错误统计方法 nullnullnullnullnullnullnullnullnullnullnullnullnull 3 6质量准确性检测报告 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 5 附录 A(资料性附录)质量准确性检测报告单样例 nullnullnullnullnullnullnullnullnullnullnull 6 参
7、考文献nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 7 目 次 CY/T 101.42014 I CY/T 101新闻出版内容资源加工规范分为以下 10 个部分: 第 1 部分:加工专业术语; 第 4 部分:数据加工质量; 第 5 部分:资料管理; 第 6 部分:数据管理; 第 7 部分:数据交付; 第 8 部分:图书加工; 第 9 部分:报纸加工; 第 10 部分:期刊加工。 本部分为 CY/T 101 的第 4 部分。 本部分的附录 A 为资料性附录。 本部分由中华人民共和国
8、国家新闻出版广电总局科技司提出。 本部分由全国新闻出版信息标准化技术委员会归口。 本部分起草单位:方正国际软件有限公司、北京拓标卓越信息技术研究院、新闻出版总署信息中心。 本部分主要起草人:赵海涛、周长岭、安秀敏、刘成勇、蔡京生、周卫国、吴治强、张沫。 前 言 第 2 部分:数据加工 与 应用模式; 第 3 部分:数据加工规格; 1 1范围 CY/T 101 的本部分规定了新闻出版内容资源数字化加工的数据质量结构和要求、质量准确性评定 和质量检测报告等方面的要求。 本部分适用于新闻出版内容资源的数字化加工及电子资源的制作和应用。 2规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日
9、期的引用文件,仅注日期的版本适用于本文件。 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 16159 汉语拼音正词法基本规则 GB/T 5271.14 信息技术词汇 第 14 部分 : 可靠性、可维护性与可用性 3术语和定义 GB/T 5271.14 和 CY/T 101.1-2014 中所界定的以及下列术语和定义适用于本文件。 3.1 资料 materials 新闻出版的印刷品、存档胶片或原始排版数据的统称。 CY/T 101.1-2014,4.1.2 3.2 成品数据 finished data 已经完成全部数据处理过程且符合预先设定的规格和质量要求,可实
10、现交付的最终数据形态。 CY/T 101.1-2014,7.1.1 3.3 差错 error 误差 算出的、观察的或测量的值或状况,规定的或理论上正确的值或状况之间的差异。 GB/T 5271.14null2008,14.01.08 3.4 版式文件 fixed-layout document 版式文档 排版后生成的,包含版面固化呈现需要的全部数据的一种文件。 CY/T 101.1-2014,6.3.10 3.5 流式文件 reflowing document 流式文档 按照内容逻辑顺序,内容呈现可适应终端设备屏幕或窗口变化的一种文件。 CY/T 101.1-2014,6.3.11 3.6 单
11、层图像版式文件 imaged fixed-layout document 新闻出版内容资源加工规范 第 4 部分:数据加工质量 CY/T 101.42014 2 图像版式文件 通过扫描方式,生成与原加工对象版式完全一致的图像文件集合,并打包成独立完整的可浏览的 数字版式文件(含书签信息及书签信息和版式文件页面之间的链接关系)。 CY/T 101.1-2014,6.3.12 3.7 双层矢量化版式文件 vectorized dual-layer fixed-layout document 双层版式文件 在单层图像版式文件基础上,同时生成与图像层对应的透明字体模式的文字层,可支持选取、拷 贝和查找
12、的版式文件。 CY/T 101.1-2014,6.3.13 3.8 单层矢量化版式文件 vectorized fixed-layout document 矢量版式文件 按照原加工对象的文字位置,文字采用矢量字,修饰性图片、艺术字、底纹、线条、图表和公式 等以图像形式显示的版式文件。 CY/T 101.1-2014,6.3.14 4数据质量结构和要求 4.1数据质量结构 数据质量应包含数据的完整性、规范性、有效性和准确性,如图 1 所示。 图 1数据质量结构 4.2质量评定基本流程 评定成品数据的完整性、规范性和有效性,在这 3 个方面均符合质量要求后,再评定成品数据的 准确性。 4.3完整性
13、4.3.1类型完整 成品数据的类型应与数据加工目标的要求保持一致,不允许出现缺漏和错误。 4.3.2内容完整 成品数据的内容范围与数量应与数据加工目标的要求保持一致,不允许出现缺漏和乱序等错误。 4.3.3质量管理文档完整 完整的成品数据质量管理文档应包括: a) 质量检测方案; b) 质量检测报告。 数据质量 完整性 规范性 有效性 准确性 3 4.4规范性 4.4.1数据格式 成品数据的数据格式应与数据加工的要求保持一致,通常采用如下格式: a) 长期保存图像使用无损压缩 TIFF 格式; b) 一般发布应用图像使用 JPEG 格式; c) 内容结构化文档采用 XML1.0 及以上版本,结
14、构化规范描述文件采用 XSD1.0 及以上版本; d) 版式文档采用 PDF 等格式; e) 流式文档采用 Epub 等格式。 4.4.2数据文件命名 成品数据的命名应与数据加工要求一致,命名方式由唯一 ID 信息与数据类型的类别信息构成。 4.4.3数据存储 成品数据的存储应以与数据加工的要求保持一致,通常以加工对象基本单位为存储文件夹,其下 分类存储此加工对象的各类成品数据。图书按本存储,报纸和期刊按期存储。 4.5有效性 成品数据应能通过相关软件及系统读出,不允许出现数据损坏、异常报错、无法打开等错误。读 出的数据应完整,不允许出现编码混乱、图像失真等无法使用的错误。 4.6准确性 成品
15、数据的质量准确性应与数据加工的要求保持一致,包括: a) 文字准确性; b) 图像准确性; c) 内容结构化准确性; d) 版式文件准确性; e) 流式文件准确性。 5质量准确性评定 5.1质量准确性评定原则 5.1.1基本原则 数据质量判定依据应建立在数据加工所使用的资料基础之上,即原资料中存在的错误、缺漏、顺 序颠倒等质量问题在数据加工时未纠正,不计入数据加工质量错误。 5.2评定方法 数据加工要求中应明确不同类型成品数据的差错率指标,并采用抽样检测等方式进行质量准确性 评定。对于实际差错率不高于成品数据差错率指标的,视为符合质量准确性目标,反之则不符合。 5.3差错率计算 检测标准单位一
16、般按千、万、十万取值。差错率的计算公式为: 差错率 = 检测标准单位中的错误数 / 检测标准单位 5.4检测抽样范围 抽样检测范围应不低于检测标准单位的 20 倍。 5.5质量准确性要求和错误统计方法 5.5.1文字准确性 5.5.1.1文字准确性要求 采用内容索引级、全文标准级、版式重构级(全文基础级加工的双层版式文件不包括在内)、版 式复杂级等加工方式生成的包含文字内容的成品数据,其文字质量评定标准单位为 10000 个字符,质 量应符合相关出版质量管理规定。 CY/T 101.42014 4 5.5.1.2文字差错统计方法 差错率统计方法包括: a) 文字差错的计算方法如下 : 1) 封
17、底、版权页、正文、目录、出版说明(或凡例)、前言(或序)、后记(或跋),注释、 索引、 图表、附录、参考文献等中的一般性错字、别字、多字、漏字、倒字,每处按 1 个差错计数; 2) 重复出现同一错字,每页按 1 个差错计数,全书最多按 4 个差错计数。多、漏 1 5 个字, 每处按 1 个差错计数,5 个字以上按 4 个差错计数; 3) 封一、扉页上的文字差错,每处按 2 个差错计数;相关文字不一致,有一项计 1 个差错;外文、 少数民族文字、国际音标,以单词为单位,无论错误出现几处,均按 1 个差错计数。 4) 汉语拼音不符合相关规定的,以一个对应的汉字或词组为单位,每处按 1 个差错计数;
18、 5) 简化字、繁体字混用,每处按 0.5 个差错计数;同一差错在全书超过 3 处 ,按 1.5 个差错计数; 内容本身需要的或原纸质图书简繁混用的不计差错。 b) 标点符号和其他符号的计算方法如下 : 1) 标点符号的一般错用、漏用、多用,每处按 0.1 个差错计数; 2) 小数点误为中圆点,或中圆点误为小数点的,以及冒号误为比号,或比号误为冒号的,每 处按 0.1 个差错计数; 3) 破折号误为一字线、半字线,每处按 0.1 个差错计数。标点符号误在行首、行末的,每处按 0.1 个差错计数; 4) 法定计量单位符号、科学技术各学科中的科学符号、乐谱符号等差错,每处按 0.5个差错计数; 同
19、样差错同一面内不重复计算,全书最多计 1.5 个差错。 c) 同一位置的文字差错在元数据集、内容结构化数据、版式文件和流式文件等不同成品数据 中重复出现的,统一按 1 处差错计数。 5.5.2图像准确性 5.5.2.1图像准确性要求 图像质量评定标准单位为 1000 页,图像差错率要求在千分之一以下。 5.5.2.2图像差错统计方法 以页面为基本检测单位,页面中出现任何一种或几种错误均按 1 个差错计数,差错类型包括: a) 文件格式错误、图像分辨率错误、色彩模式错误、压缩算法错误等规格类错误; b) 图像尺寸与原版不一致; c) 颜色失真、图像过浓或过淡; d) 水平倾斜大于 0.5 度;
20、e) 文件损坏。 5.5.3内容结构化准确性 5.5.3.1内容结构化准确性要求 内容结构化质量评定标准单位为 10000 个字符,内容结构化差错率要求在万分之三以下。 5.5.3.2内容结构化差错统计方法 内容未标引、标引错误、结构化名称错误、结构化层级错误等每处按 1 个差错计数; 5.5.4关联关系准确性 5.5.4.1关联关系准确性要求 关联关系质量评定标准单位为 1000 个链接点,差错率要求在千分之三以下。 5.5.4.2关联关系差错统计方法 关联关系缺失或指向错误即为差错,一处关联关系错误按 1 个差错计数,关联关系包括: 5 a) 目次与正文章节的链接关系; b) 目次的层级关
21、系; c) 脚注引用点与脚注的引用关系; d) 插图引用点与插图的引用关系; e) 表格引用点与表格的引用关系; f) 参考文献引用点与参考文献的引用关系; g) 图像引用点与图像文件的链接关系。 5.5.5版式文件准确性 5.5.5.1版式文件准确性要求 版式文件质量评定标准单位为 10000 个字符 , 差错率要求在万分之三以下(图像版式文件除外)。 5.5.5.2版式文件差错统计方法 版式文件差错计算方法如下: a) 矢量版式文件与原版排版方式上不一致的错误,每出现一处按 1 个差错计数,差错包括: 1) 文字对位错误:单个或单行文字与其他文字不平行; 2) 排版格式错误:段落、文字或图
22、片位置等不符合要求; 3) 字体信息错误:字体、字号、加粗、倾斜、颜色、底色、上下脚标等不符合要求; 4) 行外信息错误:注音、着重符等不符合要求。 b) 双层版式文件中文字层与图像层偏差超过当前文字 1/3 个字符大小的按 0.2 个差错计数,单行 文字最多按 1 个差错计数。 5.5.6流式文件准确性 5.5.6.1流式文件准确性要求 流式文件质量评定标准单位为 10000 个字符,差错率要求在万分之三以下。 5.5.6.2流式文件差错统计方法 重排后与原版排版方式上不一致的错误,每出现一处按 1 个差错计数,差错包括: a) 排版格式错误:段落、文字或图片位置等不符合要求; b) 字体信
23、息错误:字体、字号、加粗、倾斜、颜色、底色、上下脚标等不符合要求; c) 行外信息错误:注音、着重符等不符合要求。 6质量准确性检测报告 质量准确性检测报告(参见附录 A)应包含: a) 加工方全称; b) 检测方全称; c) 提交日期; d) 检测日期; e) 提交数据总量并附符合规范要求的数据清单; f) 各类提交资源文件抽检比例及抽检数目,并附有抽检数据清单; g) 各检测项差错率,并附有各项明细错误清单(清单应描述错误所在文件的具体位置,文件路径 及命名、纸质出版物页 码、电子文件电子 页码、元数据字段名称、文字语境等); h) 检测结论; i) 问题描述及错误修改说明。 j) 检测人
24、及签名。 CY/T 101.42014 6 附录 A ( 资料性附录 ) 质量准确性检测报告单样例 A.1质量准确性检测报告单 质量准确性检测报告单样例见表 A.1。 质量准确性检测报告单 项目编号 项目名称 数据类型 检测类型 提交日期 检测日期 加工方 检测方 检测情况 检测项 规格要求 抽检率 检测数据 检测工具 检测结果 数据及检测 明细清单 检测结论 问题描述及 错误修改说明 检测人 表 A.1质量准确性检测报告单 7 1 出版管理条例 2011 2 图书质量管理规定 2005 3 图书质量保障体系 1997 4 报纸期刊审读暂行办法 5 报纸质量管理标准(试行) 1995 6 报纸质量管理标准 实施细则(试行) 1995 7 社会科学期刊质量管理标准(试行) 1995 8 音像制品管理条例 2001 9 图书、期刊、音像制品、电子出版物重大选题备案办法 1997 10 图书编辑工作基本规程 1998 11 CY/T101.1-2014 新闻出版内容资源加工规范 第 1 部分:加工专业术语 参考文献