1、新闻出版内容资源加工规范 第 3 部分:数据加工规格 2014-01-29 发布 2014-01-29 实施 中华人民共和国新闻出版行业标准 Specification of content resource processing in press and publication Part 3: Data processing specification CY/T 101.32014 ICS 35.240.30 L70 发 布中华人民共和国国家新闻出版广电总局 I 前言nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnul
2、lnullnullnullnullnull I 1范围 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 1 2术语和定义 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 1 3成品数据构成与规格 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 3 3.1成品数据构成 nullnullnul
3、lnullnullnullnullnullnullnullnullnullnullnullnullnullnull 3 3.2成品数据规格 nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 3 参考文献nullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnullnull 6 目 次 CY/T 101.32014 I CY/T 101新闻出版内容资源加工规范分为以下10个部分: 第1部分:加工专业术语; 第4部分:数据
4、加工质量; 第5部分:资料管理; 第6部分:数据管理; 第7部分:数据交付; 第8部分:图书加工; 第9部分:报纸加工; 第10部分:期刊加工。 本部分为CY/T 101的第3部分。 本部分由中华人民共和国国家新闻出版广电总局科技司提出。 本部分由全国新闻出版信息标准化技术委员会归口。 本部分起草单位:方正国际软件有限公司、北京拓标卓越信息技术研究院、新闻出版总署信息中心。 本部分主要起草人:赵海涛、周长岭、安秀敏、刘成勇、蔡京生、周卫国、吴治强、张沫。 前 言 第2部分:数据加工与应用模式; 第3部分:数据加工规格; 1 1范围 CY/T 101的本部分规定了新闻出版内容资源数字化成品数据的
5、构成与加工规格等方面要求。 本标部分适用于新闻出版内容资源的数字化加工及电子资源的制作和应用。 2术语和定义 GB/T 5271.13null2008、GB/T 5271.17-2010、CY/T 50null2008和CY/T 101.1-2014中所界定的以及下 列术语和定义适用于本文件。 2.1 新闻出版内容资源 press and publication content resource 新闻出版领域内任意形式、任何粒度的内容及其他有价值的资源。 CY/T 101.1-2014,4.1.1 2.2 元数据 metadata 关于数据或数据元素的数据(可能包括其数据的描述),以及关于数据
6、拥有权、存取路径、访问 权和数据易变性的数据。 GB/T 5271.17null2010,17.06.05 2.3 联合图像专家组 Joint Photographic Experts Group;JPEG 一种支持8位和24位色彩的压缩位图格式,适合在计算机网络上传输的图形文件格式。 CY/T 101.1-2014,6.3.6 2.4 标签图像文件格式 Tagged Image File Format;TIFF 一种灵活性、适用性强的用于图像数据交换的标签图像文件格式。 CY/T 101.1-2014,6.3.7 2.5 图像互换格式 Graphics Interchange Format;
7、GIF 一种基于LZW算法的连续色调的无损压缩图像文件格式。 CY/T 101.1-2014,6.3.8 2.6 像素 pixel;picture element 在显示图像中,能独立地赋予属性(例如色彩和光强)的最小二维元素。 GB/T 5271.13null2008,13.08.03 2.7 图像分辨率 graphic resolution 图像的精度,单位尺寸内呈现像素的数量。 CY/T 101.1-2014,5.2.6 新闻出版内容资源加工规范 第 3 部分:数据加工规格 CY/T 101.32014 2 2.8 灰度 grey 灰度色 grey color 纯白、纯黑及两者中的一系列
8、从白到黑的过渡色。 CY/T 101.1-2014,5.2.5 2.9 版式文件 fixed-layout document 版式文档 排版后生成的,包含版面固化呈现需要的全部数据的一种文件。 CY/T 101.1-2014,6.3.10 2.10 流式文件 reflowing document 流式文档 按照内容逻辑顺序,内容呈现可适应终端设备屏幕或窗口变化的一种文件。 CY/T 101.1-2014,6.3.11 2.11 单层图像版式文件 imaged fixed-layout document 图像版式文件 通过扫描方式,生成与原加工对象版式完全一致的图像文件集合,并打包成独立完整的可
9、浏览的 数字版式文件(含书签信息及书签信息和版式文件页面之间的链接关系)。 CY/T 101.1-2014,6.3.12 2.12 双层矢量化版式文件 vectorized dual-layer fixed-layout document 双层版式文件 在单层图像版式文件基础上,同时生成与图像层对应的透明字体模式的文字层,可支持选取、拷 贝和查找的版式文件。 CY/T 101.1-2014,6.3.13 2.13 单层矢量化版式文件 vectorized fixed-layout document 矢量版式文件 按照原加工对象的文字位置,文字采用矢量字,修饰性图片、艺术字、底纹、线条、图表和公
10、式 等以图像形式显示的版式文件。 CY/T 101.1-2014,6.3.14 2.14 单层矢量 PATH 版式文件 curved-text fixed-layout document 转曲版式文件 在原加工对象的文字位置上采用曲线绘制文字的版式文件。 CY/T 101.1-2014,6.3.15 2.15 电子出版文件格式 Electronic Publication: EPub 一种内容可自动重排的文件格式。 CY/T 101.1-2014,6.3.16 3 2.16 数学置标语言 Mathematical Markup Language;MathML 一种基于XML的标准,用以描述数学
11、符号和公式的置标语言。 CY/T 101.1-2014,6.3.17 2.17 文章 article 表达完整意义而独立成篇的文字作品。 CY/T 50null2008,5.15 2.18 全文 full text 出版物正文部分的全部文字。 CY/T 101.1-2014,4.2.21 2.19 参考文献 references 在全书正文之后或各部分之后一一列出的参考、引用资料的名单。 CY/T 50null2008,3.94 2.20 都柏林核心元数据 Dublin core metadata;DC 一种根据各类信息资源的共同特点确定的,适用于不同领域间信息资源、特别是网络信息资源的 元数
12、据。 CY/T 101.1-2014,6.1.3 2.21 成品数据 finished data 已经完成全部数据处理过程且符合预先设定的规格和质量要求,可实现交付的最终数据形态。 CY/T 101.1-2014,7.1.1 3成品数据构成与规格 3.1成品数据构成 各类出版物经数据加工处理后的成品数据须为符合最终质量和存储规范的数据文件集合,通常包 括元数据集,图像文件,内容结构化文件,公式、插图、表格、广告和生僻字等对象数据文件,流式文件, 版式文件等。 3.2成品数据规格 3.2.1成品数据格式选用原则 各类成品数据所采用的文件存储格式应遵循具有普遍认可、成熟应用的原则或采用符合国际标准
13、、 国家标准或行业标准的数据文档格式。各类成品数据应符合相应的命名和存储规则。 3.2.2元数据成品数据格式 元数据成品数据采用结构化XML1.0及以上版本或附带结构化标记信息的TXT等格式作为文件格 式。 元数据包含图书元数据、报纸元数据、期刊元数据、目次元数据、文章元数据、作者元数据、附 件元数据、参考文献元数据、脚注元数据和管理元数据等。 3.2.3图像成品数据规格 面向长期保存应用及后续加工处理的图像成品数据采用无损压缩TIFF格式作为文件格式,面向其 他应用的图像成品数据采用有损压缩JEPG格式作为文件格式,图像数据的技术参数见表1。 CY/T 101.32014 4 参数类型 格式
14、 应用方向 压缩方式 分辨率 (DPI) 色彩模式 TIFF面向长期保存应用LZW 600或300 彩色图像采用彩色模式、灰度图像采用灰度模 式、黑白图像采用二值模式 JPEG面向其他应用JPEG 100以上 表 1图像数据的技术参数 表 2版式文件数据参数表 3.2.4内容结构化成品数据规格 内容结构化成品数据采用XML 1.0及以上版本或附带结构化标记信息的TXT等格式作为文件格 式。结构化规范描述文件采用XSD1.0及以上版本格式。 3.2.5对象数据的成品数据规格 各类对象数据的成品数据规格如下: a) 按图像方式加工包括: 1)公式、插图、表格、广告等成品数据采用JPEG格式作为文件
15、格式; 2)生僻字成品数据采用GIF格式作为文件格式。 b) 按矢量化或结构化方式加工包括: 1)生僻字成品采用TrueType字体格式作为文件格式; 2)数学类公式成品数据库采用MathML格式作为文件格式,化学类公式采用ChemDraw格 式作为文件格式; 3)结构化表格成品数据遵循HTML5.0及以上版本语法标准并以HTML格式作为文件格式。 3.2.6流式文件成品数据规格 流式文件成品数据采用EPub3.0及以上版本、Mobi或CEBx等格式作为文件格式。 3.2.7版式文件成品数据规格 版式文件成品数据采用PDF1.6及以上版本或CEBX格式作为文件格式。版式文件数据参数见表2。 加
16、工 类型 规格 面向长期保存 面向其他应用 双层 矢量 单层 矢量 单层 图像 单层矢 量PATH 双层 矢量 单层 矢量 单层 图像 单层矢 量PATH 色彩模式 彩色图像采用彩色模式 灰度图像采用灰度模式 黑白图像(文字)采用二值模式 分辨率 600DPI - - - - - 300DPI 150DPI以下- - - - 压缩方式 彩色与灰度图采用JPEG 彩色与灰度图采用JPEG2000 二值图像采用GROUP 4 二值图像采用JBIG2 线条矢量化- 5 加工 类型 规格 面向长期保存 面向其他应用 双层 矢量 单层 矢量 单层 图像 单层矢 量PATH 双层 矢量 单层 矢量 单层
17、图像 单层矢 量PATH 全文 嵌入子集- - - 不做校勘- - - 校勘- - - 设置字体字号- - - 集外字及 特殊符号 其他符号替代- GIF图片- 造字- 书签 集外字及特殊符号其他符号替代- 上下脚标采用HTML语法替代 文内链接采用HTML语法 注:“”表示为必选;“”表示为可选;“-”表示不可选。 CY/T 101.32014 6 1 GB/T 5271.13null2008 信息技术 词汇 第13部分:计算机图形 2 GB/T 5271.17null2010 信息技术 词汇 第17部分:数据库 3 CY/T 50null2008 出版术语 4 CY/T 101.1-2014新闻出版内容资源加工规范 第1部分:加工专业术语 参考文献