1、 ICS 35.020 CCS L 70 DB52 贵州省地方标准 DB52/T 1541.22020 政务数据平台 第 2 部分:数据归集规范 Government data platform Part 2:data ingestion specification 2020 - 11 - 20 发布 2020 - 12 - 20 实施 贵州省市场监督管理局 发布 DB52/T 1541.22020 I 目 次 前言 . II 1 范围 . 1 2 规范性引用文件 . . 1 3 术语和定义 . . 1 4 缩略语 . . 3 5 总体要求 . . 3 6 网络环境 . . 3 7 归集流程
2、. . 4 8 数据采集 . . 4 9 数据清洗加工 . . 5 10 数据整合 . . 6 11 数据更新 . . 6 DB52/T 1541.22020 II 前 言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起 草。 本文件是DB52/T 1541的第2部分。 DB52/T 1541已经发布了以下部分: 第 2 部分:数据归集规范; 第 3 部分:数据存储规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件由贵州省大数据发展管理局提出。 本文件由贵州省大数据标准化技术委员会归口。 本文件起草单位
3、:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云 上贵州大数据产业发展有限公司、信通达智能科技有限公司。 本文件主要起草人:王嘉卉、宿睿智、刘彦嘉、田野、武波、徐凯琳、文小成、杨德康、朱小洪、 冯丹尼、郑如顺、杨建雄、黄明锋、秦晓东、邵建平、戚玉峰、赵飞、张洋、孙瑾。 DB52/T 1541.22020 1 政务数据平台 第 2 部分:数据归集规范 1 范围 本文件规定了政务数据平台数据归集的术语和定义、缩略语、总体要求、网络环境、归集流程、数 据采集、数据清洗加工、数据整合及数据更新。 本文件适用于政务数据平台可共享政务数据和可开放公共数据的归集。 2 规范性引用文件
4、 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本 (包括所有的修改单)适用于本 文件。 GB/T 38664.2-2020 信息技术 大数据政务数据开放共享 第2部分:基本要求 DB52/T 1540.3-2020 政务数据 第3部分:数据清洗加工规范 DB52/T 1541.3-2020 政务数据平台 第3部分:数据存储规范 3 术语和定义 下列术语和定义适用于本文件。 3.1 数据归集 data ingestion 面向特定场景或领域对数据进行采集、清洗加工和整合的活动。 3.2 贴源
5、层 operationa l data store 存储由源系统采集而来、未经处理的原始数据。 3.3 公共层 common data model 存储经过清洗加工后符合质量要求的可复用的公共数据。 3.4 主题层 data mart 存储整合后面向业务、应用的数据集合。 DB52/T 1541.22020 2 3.5 (国家电子政务网)政务外网 NEGN e xtranet 满足各级政务部门面向社会提供服务和管理的业务网络,简称政务外网。 来源:GB/T 256472010,3.4.3 3.6 政务数据 governme nt data 各级政务部门及其技术支撑单位在履行职责过程中依法采集、
6、生成、存储、管理的各类数据资源。 注: 根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。 来源:GB/T 38664.12020,3.1 3.7 结构化数据 structured data 一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用 关系模型予以有效描述。 来源:GB/T352952017,2.2.13 3.8 半结构化数据 semi-struc tured data 具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。 示例: XML 文档内容,每项都被一对标记封起来,如,表面上看是结构
7、化数据,但 之间的数据却是千变万化,这是典型的半结构化数据。 来源:DA/T 822019,2.8 3.9 非结构化数据 unstruct ured data 不具有预定义模型或未以预定义方式组织的数据。 来源:GB/T352952017,2.1.25 3.10 数据剖析 data profiling 对数据的结构、内容、关系和来源进行调研,以达到认识数据的目的。 3.11 数据采集定义 data collect ion definition 基于数据剖析结果,明确待采集数据的存储结构、存储位置和采集策略。 DB52/T 1541.22020 3 3.12 数据读取 data extracti
8、on 将待采集数据从其原始存储区域读到临时存储区域的过程。 3.13 数据写入 data l oading 将数据读取过程中临时存储的数据最终持久化存储的过程。 3.14 全量更新 full update 使用新的数据对历史数据进行完全覆盖。 3.15 增量更新 incremen tal update 将两次更新间隔发生变更的数据同步到存储区域。 4 缩略语 下列缩略语适用于本文件。 ACID:数据库事务特征原子性、一致性、隔离型和持久性(Atomicity Consistency Isolation Durability) CSV:逗号分隔文件格式(Comma-Sepa rated Valu
9、es) JSON:对象标记(JavaScript O bject Notation) XML:可扩展标记语言(eXtensible Markup Language) 5 总体要求 5.1 数据归集安全应符合 GB/T 38664 .2-2020 的要求。 5.2 应记录并保留归集过程中历史数据的变化和移动情况,确保数据归集的可追溯性。 5.3 数据归集过程中不应造成数据的缺失和遗漏,确保数据的完整性。 5.4 应如实准确地处理数据,不应虚构或篡改数据;应准确记录数据,不应存在异常或错误数据,确 保数据的准确性。 6 网络环境 来源于不同网络环境的原始数据应根据以下要求进行归集: a) 原始数据
10、位于政务外网环境的,对数据直接归集; b) 原始数据位于专网环境的,应建立与政务外网之间的安全传输通道,采取必要的安全措施保障 数据传输安全性,对专网环境数据的归集; DB52/T 1541.22020 4 c) 原始数据位于互联网环境的,应建立与政务外网之间的安全传输通道,采取必要的安全措施保 障数据传输安全性,对互联网环境数据的归集。 7 归集流程 数据归集总体流程见图1,流程包含以下内容: a) 将原始数据不进行处理地采集存放在政务数据平台的贴源层中; b) 对贴源层中的数据进行清洗加工使其满足政务数据平台使用的质量要求, 清洗加工后的数据存 放在政务数据平台的公共层中; c) 对公共层
11、中的数据进行个性化面向应用、业务的整合,最终数据存放在政务数据平台的主题层 中; d) 当原始数据发生更新时,应依照采集、清洗加工、整合的步骤对更新数据进行归集。 图1 数据归集总体流程 8 数据采集 8.1 采集数据类型 采集数据包括结构化数据、半结构化数据、非结构化数据,接入形式包括数据库、文件、接口、消 息队列。 8.2 采集流程 8.2.1 数据剖析 数据剖析应包括以下内容: a) 业务分析:对数据来源业务进行探查分析; b) 接入方式分析:对源数据存储位置、提供方式进行分析; c) 结构分析:对数据的含义、类型、长度、结构进行分析; DB52/T 1541.22020 5 d) 内容
12、分析:对数据内容进行分析,包括如数据总数、分布情况、平均值、中位数、最大值、最 小值等数据统计分析; e) 关联分析:对数据之间存在的依赖关系、主外键关系进行分析。 8.2.2 数据采集定义 8.2.2.1 存储结构 应根据源数据选择合适的类型、长度、精度对数据进行存储。 8.2.2.2 存储逻辑介质 8.2.2.2.1 结构化数据应选择结构化数据库存储。 8.2.2.2.2 半结构化数据应转为结构化数据后选择结构化存储。 8.2.2.2.3 非结构化数据应根据存储量选择合适的文件系统进行存储。 8.2.2.3 存储物理介质 8.2.2.3.1 应根据数据访问频率的高低选择读写性能不同的存储介
13、质。 8.2.2.3.2 访问频率较低的归档型数据,宜将数据压缩后存储。 8.2.2.4 采集策略 应根据数据更新快慢和实时性要求制定不同的采集策略。 8.2.3 数据读取 8.2.3.1 不应在待采集数据的源系统业务繁忙时进行,避免读取动作影响源系统正常运行。 8.2.3.2 宜使用源系统的备份库作为采集对象,使用备份库时应保证数据一致性和可用性。 8.2.3.3 对于海量数据,宜支持分批或增量读取,宜采用分布式方式对数据源进行读取。 8.2.4 数据写入 8.2.4.1 应保证写入数据与读取数据数量一致。 8.2.4.2 应具备异常回滚机制,保证写入事务的 ACID 特性。 8.3 采集方
14、法 8.3.1 数据库类型应建立源数据库结构与目标数据库之间的存储结构映射,通过数据库同步进行采集。 8.3.2 返回数据为结构化或半结构化的接口类型,应建立源接口返回数据结构与目标数据库之间存储 结构映射,可通过搜索进行接口数据采集,也可直接存储接口的基本信息;返回数据为非结构化的接口 类型,可将接口基本信息直接存储。 8.3.3 结构化的二维表和半结构化文件,应建立源文件结构与目标数据库之间存储结构映射,通过文 件导入进行采集;非结构化文件数据,可将文件整体上传至文件服务器后建立存储路径表。 8.3.4 实时性要求低的数据可使用批量采集,实时性要求高的数据应使用实时采集。 8.3.5 数据
15、量较大、单批量采集可能会造成系统故障的,应使用分批采集。 9 数据清洗加工 应按DB52/T 154 0.3-2020的规定进行。 DB52/T 1541.22020 6 10 数据整合 10.1 整合目的 针对某一特定场景或领域,从贴源层或公共层中将符合质量要求的数据按需求进行整合,形成面向 主题的、集成的、非易失的且随时间变化的数据集合。 10.2 整合要求 10.2.1 命名应符合 DB52/T 154 1.3-2020 的要求。 10.2.2 相同和相似字段应使用相同的字段类型。 10.2.3 公共代码及代码值应保持统一,应采用国家、行业规定的公共代码。 10.3 整合方式 10.3.
16、1 水平整合 10.3.1.1 宜采用水平整合方式扩大数据覆盖范围。 10.3.1.2 同一实体相同维度的数据应使用水平整合,如整合政府、事业单位、企业、社会团体和其他 组织的法人单位数据。 10.3.1.3 数据间存在的结构差异应在整合过程中统一。 10.3.1.4 不同来源的重复数据应进行去重,冲突数据应进行如下处理: a) 能判别数据有效性、正确性的可保留; b) 增加数据来源标识后均予以保留。 10.3.2 垂直整合 10.3.2.1 宜采用垂直整合方式丰富数据维度。 10.3.2.2 垂直整合的范围可包含同一实体不同维度的数据。 10.3.2.3 应识别并提取有效的业务主键,根据业务
17、主键进行关联整合。 10.3.2.4 应保留整合数据的来源信息。 10.3.2.5 字段重合度低的数据宜采用主从表的方式进行整合。 11 数据更新 11.1 更新方法 11.1.1 对存在更新标识的数据应支持增量更新。 11.1.2 对不存在更新标识的数据应支持全量更新。 11.2 更新策略 11.2.1 对产生呈现周期性规律的数据应支持定时更新策略。 11.2.2 对产生由特定事件触发的数据应支持事件触发更新策略。 11.2.3 对产生无特定规律的数据应支持手动更新策略。 DB52/T 1541.22020 7 11.3 更新频率 11.3.1 根据数据变化情况,数据应进行及时和持续更新。 11.3.2 实时产生且实时性要求高的数据应进行实时更新。 11.3.3 实时产生且实时性要求低的数据宜采用定时更新。 _ DB52/T 1541.2-2020
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1