1、 ICS 35.240 CCS L 67 37 山东省地方标准 DB37/T 46482023 公共数据 历史数据数字化工作指南 Public dataGuidelines for historical data digitization2023-08-31 发布2023-09-30 实施山东省市场监督管理局发 布 DB37/T 46482023 I 目次 前言.II 1 范围.1 2 规范性引用文件.1 3 术语和定义.1 4 缩略语.1 5 工作流程.2 6 总体计划.2 7 数据调研分析.2 8 历史数据借阅.2 9 数据结构化.2 概述.2 9.1 扫描识别.2 9.2 手工录入.3
2、9.3 10 数据校对.3 11 数据存储归档.4 数据存储.4 11.1 历史数据归档.4 11.2 参考文献.5 DB37/T 46482023 II 前言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由山东省大数据局提出、归口并组织实施。DB37/T 46482023 1 公共数据 历史数据数字化工作指南 1 范围 本文件给出了文本资源历史数据数字化的指导和建议。本文件适用于各级公共管理和服务机构文本资源历史数据数字化的规划、实施和管理。2 规范性引用文件
3、 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 31219.22014 图书馆馆藏资源数字化加工规范 第2部分:文本资源 DB37/T 4646.22023 公共数据 数据治理规范 第2部分:数据清洗比对 3 术语和定义 下列术语和定义适用于本文件。3.1 文本 text 以字符、符号、词、短语、段落、句子、表格或者其他字符排列形成的数据,用于表达意义,其解释基本上取决于读者对于某种自然语言或者人工语言的知识。来源:GB/T 48942009,4.
4、1.1.2.4 3.2 数字图像 digital image 表示实物图像的整数阵列,一个二维或更高维的采样并量化的函数,由相同维数的连续图像产生。来源:DA/T 312017,3.2 3.3 归档 filing 办理完毕且具有保存价值的文件经系统整理交档案室或档案馆保存的过程。来源:DA/T 12000,3.1.1 4 缩略语 下列缩略语适用于本文件。DPI:每英寸点数(Dots Per Inch)JPEG:联合图像专家组(Joint Photographic Experts Group)OCR:光学字符识别(Optical Character Recognition)OFD:开放版式文档(
5、Open Fixed-layout Document)PDF:可携带文档格式(Portable Document Format)TIFF:标签图像文件格式(Tag Image File Format)DB37/T 46482023 2 5 工作流程 历史数据数字化流程包括总体计划、数据调研分析、历史数据借阅、数据结构化、数据校对、数据存储归档,见图1。总体计划数据调研分析扫描识别数据结构化开始手工录入数据校对结束数据存储归档历史数据借阅 图1 历史数据数字化流程 6 总体计划 宜综合考虑本机构实际业务工作情况、文本资源历史数据的利用率、共享和开放程度、价值等因素,制定历史数据数字化总体计划并形
6、成工作方案,包括工作目标、工作原则、历史数据范围、组织保障、管理制度、人员安排及责任分工、进度安排、工作流程等。采取外包方式实施时,承担历史数据数字化工作的机构和人员遵守相关信息保密规定,并签订保密协议。7 数据调研分析 依据工作方案,调研分析本机构文本资源历史数据现状,包括数据内容、数据分布情况、数据存储介质、存储地点、数字化程度、数据量、数据质量状况、纸质形态,以及历史数据存储管理过程中存在的问题等。8 历史数据借阅 宜结合数据调研分析情况,按照历史数据借阅相关要求开展历史数据调取、清点、登记等准备工作,并提交历史数据借阅申请,审批通过后借阅并按规定存放历史数据,根据历史数据的价值、可识别
7、程度等选取数据结构化方式。9 数据结构化 概述 9.1 数据结构化方式主要包括:a)扫描识别:适合处理文字规整、版面清晰的历史数据;b)手工录入:适合处理字体过小、图文模糊、版面复杂、准确度要求较高和文档价值较高的历史数据,如手写数据、准确度要求高的证件数据、无法被扫描的高价值档案等。扫描识别 9.2 9.2.1 扫描 以扫描方式对历史数据进行处理时宜满足:DB37/T 46482023 3 a)扫描设备:根据数据规模、尺寸和形状、存储条件等选择扫描设备,历史数据尺寸较大时,可使用拍照设备对历史数据分块拍摄,将拍摄的数字图像拼接并存储;b)扫描色彩模式:根据历史数据是否有红头、印章、照片、插图
8、、多色彩文字,以及页面颜色是否为彩色、字迹是否清晰等情况选择扫描色彩模式,包括彩色模式、黑白二值模式、灰度模式等;c)扫描参数:设置并调整扫描参数,以保证扫描后形成的文件清晰、完整、不失真,如文本资源文字偏小、密集或清晰度较差时,扫描分辨率宜大于 300DPI;d)扫描格式:扫描文件宜使用通用格式,如 TIFF、JPEG 等,也可从浏览速度、易操作性、存储空间占用等方面考虑,将数字图像转换为 OFD、PDF 等其他格式,并按需增加电子签名;e)数字图像质量:扫描形成的数字图像质量要求宜符合 GB/T 31219.22014 中 6.3.1 的要求;f)扫描文件命名:扫描文件与历史数据和结构化数
9、据建立关联,并制定文件命名规则,命名包含历史数据档案号、录入业务部门名称、业务类别等。9.2.2 识别 采用OCR识别等技术对扫描文件进行文字识别,依据数据类别(比如票据、证件、表格、公文等)对识别结果进行处理,形成并输出结构化数据。手工录入 9.3 9.3.1 概述 手工录入包括正常信息和异常信息录入两种情况,根据实际情况选择单工录入、双工录入方式。注:双工录入为同一份历史数据由两个操作员分别进行录入。9.3.2 正常信息录入 历史数据中正常信息录入时宜按照历史数据原文录入,正常信息录入宜满足:a)录入时不宜增加空格、标点、符号等内容;b)证件类号码中的字符使用半角英文,数字使用阿拉伯数字;
10、c)无特别说明的日期类信息,推定为公历日期。9.3.3 异常信息录入 历史数据中异常信息录入时宜备注说明录入情况,异常信息录入宜满足:a)错误信息录入:1)数据、字符或文字无法确认的,用“*”代替;2)繁体字、异体字等不规范用字,以相应的规范汉字代替;3)错别字、语句不通顺等异常内容,按照历史数据记载信息录入;4)日期信息不符合历法规则、日期不全的,根据业务情况推定日期进行代替;5)证件类号码不符合该类证件编码规则的,按历史数据记载信息录入。b)缺失信息录入:在录入选填信息时,有关信息完全无法确定或缺失的,该项可不录入。10 数据校对 依据数据结构化方式和业务需求,选择系统校对、人工校对或系统
11、校对与人工校对相结合方式对已结构化数据进行校对,重点对结构化数据的准确性、完整性和规范性,数字图像的数字化参数、命名、DB37/T 46482023 4 排列顺序、图像质量,数据存储载体的安全性等进行全面校对,校对修改完成后及时存储结构化数据,并将历史数据归档。11 数据存储归档 数据存储 11.1 宜对已结构化数据进行数据治理,包括但不限于数据清洗比对、标准化、融合,制定问题数据处理机制并修正数据治理过程中发现的问题数据,制定数据库表、文件等的命名规则,将结构化数据、扫描文件一并存入本机构对应业务库中。其中,数据清洗比对宜符合DB37/T 4646.22023的要求。历史数据归档 11.2
12、历史数据数字化工作完成后,按照历史数据归档相关要求对历史数据进行处理和清点,确保历史数据完好、无遗漏,并按规定手续将已借阅的历史数据进行归档。DB37/T 46482023 5 参考文献 1 GB/T 15261989 信息处理 数据流程图、程序流程图、系统流程图、程序网络图和系统资源图的文件编制符号及约定 2 GB/T 48942009 信息与文献 术语 3 GB/Z 197362005 电子成像文件图像压缩方法选择指南 4 GB/T 205302006 文献档案资料数字化工作导则 5 DA/T 12000 档案工作基本术语 6 DA/T 312017 纸质档案数字化规范 7 ISO/TR 13028 信息与文献 档案数字化实施指南