DB15 T 1873—2020 大数据平台 数据接入质量规范.pdf

上传人:outsidejudge265 文档编号:1478917 上传时间:2020-09-19 格式:PDF 页数:17 大小:1.10MB
下载 相关 举报
DB15 T 1873—2020 大数据平台 数据接入质量规范.pdf_第1页
第1页 / 共17页
DB15 T 1873—2020 大数据平台 数据接入质量规范.pdf_第2页
第2页 / 共17页
DB15 T 1873—2020 大数据平台 数据接入质量规范.pdf_第3页
第3页 / 共17页
DB15 T 1873—2020 大数据平台 数据接入质量规范.pdf_第4页
第4页 / 共17页
DB15 T 1873—2020 大数据平台 数据接入质量规范.pdf_第5页
第5页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、ICS 35.020 L 70 DB15 内 蒙 古 自 治 区 地 方 标 准 DB15/T 1873 2020 大数据 平台 数据接入质量规范 Data access quality specification for big data platform 2020-04-03发布 2020-05-03实施 内蒙古自治区市场监督管理局 发布 DB15/T 1873 2020 I 目 次 前言 . II 1 范围 . 1 2 规范性 引用文件 . 1 3 术语和 定义 . 1 4 概述 . 2 5 数据 质量评价维度 . 2 6 数据 接入质量技术要求 . 3 7 数据质量 评 分方法 . 8

2、 附录 A(资料 附录 )数据质量 评价维度 . 10 DB15/T 1873 2020 II 前 言 本标准按照 GB/T 1.1 2009给出的规则起草。 本标准由 内蒙古自治区大数据发展管理局提出。 本标准由内蒙古自治区大数据发展管理局归口。 本标准起草单位:内蒙古自治区大数据发展管理局、新华三 技术有限公司、 中国 电子技术标准化研 究院、 内蒙古自治区大数据与云计算标准化委员会、内蒙古自治区标准化院、内蒙古银保监局、内蒙古 自治区地图院、内蒙古自治区电子信息产品质量检验院、内蒙古大学、 浪潮软件集团有限公司 、内蒙古 跃晨科技有限公司 、 北京 东方金信科技有限公司、北京东方国信科技

3、股份有限公司、天 帆 创新 (北京) 科技 发展有限公司、同方知网( 北京 ) 技术 有限公司 、内蒙古纵横 云技术有限公司 。 本标准主要起草人:张建军、崔连伟、孙卫、石彦龙、周佳琪、李向前、石建军、巩韶飞、顾君、 武茂春、卫凤林、马学彬、徐小强、万磊、张晓磊、王楠、李建文 、刘玉坤、冯国忠。 DB15/T 1873 2020 1 大数据 平台 数据接入 质量 规范 1 范围 本标准 规定了大数据平台数据接入过程中 数据质量保障的规范及技术要求 。 本标准适用于内蒙古自治区各 数据提供单位接入 大数据平台过程 中的数据质量保障工作 。 2 规范性 引用文件 下列文件对于本文件的应用是必不可少

4、的。凡是注日期的引用文件,仅所注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件; GB/T 5271.1 信息技术词汇 第 1部分:基本术语 GB/T 36344 信息技术 数据质量评价指标 3 术语和 定义 GB/T 5271.1、 GB/T 36344和 SY/T 6227-2005界定 的术语和定义适用于本文件 。 为了便于使用, 以 下 重复列出 以上 标准的一些术语和定义 。 3.1 数据 data 信息 的可再解释的形式化表示,以适用于 通信 、解释 或 处理。 注 : 可以通过人工或自动手段处理数据 。 GB/T 5271.1-200

5、0, 定义 01.01.02 3.2 元数据 metadata 关于 数据或数据元素的数据( 可能 包括其数据描述) , 以及关于数据拥有权、 存取路径 、 访问权限 和数据易变性的数据。 GB/T 5271.1-2000, 定义 17.06.05 3.3 数据 质量 data quality 在指 定条件下使用时,数据的特性满足明确的和隐含的要求程度。 GB/T 36344-2018, 定义 2.3 DB15/T 1873 2020 2 3.4 原始 数据 raw data 终端 用户所存储使用的各种未经过处理 或 简化的数据。 注 : 原始 数据有 多种 存在形式,如文本数据、图像数据、音

6、频数据或者 几种 数据混合存在。 GB/T 36344-2018, 定义 2.4 3.5 数据生命 周期 data life cycle 将 原始数据转化为可用于行动的知识的一组过程。 GB/T 36344-2018, 定义 2.5 3.6 数据集 data set 具有 一定主题,可以标识 并 可以 被 计算机化处理的数据集合。 GB/T 36344-2018, 定义 2.6 3.7 数据 标准 data standard 数据 的命名、定义、结构和取值规范方面的规则和基准。 GB/T 36344-2018, 定义 2.8 3.8 检核 任务 inspection task 数据核查 的最小

7、调度单位 。 4 概述 大数据平台支持结构化数据、半结构化数据和非结构化数据等异构数据源采集数据,实现各类离线 数据、实时数据的采集与接入。针对 大数据平台的数据接入, 执行相应的 质量 评价标准,保证数据质量, 为各 数据 使用单位提供 优质 的 数据服务 。 5 数据 质量评价维度 数据质量是保证数据应用和 提供优质数据服务 的基础,数据 质量 的评估标准主要包括八个维度:完 整性、规范性 、 一致性、准确性、唯一性 、关联性、时效性、 可访问性, 本 标准 从以上八个维度评价数 据质量,详细请参考附录 A。 DB15/T 1873 2020 3 6 数据 接入质量技术要求 大数据平台为了

8、保障数据质量,须从四个层面进行数据质量控制,数据标准体系质量控制、数据采 集质量控制、数据存储质量控制、数据使用质量控制进行全流程数据质量管控。数据 接入质量 整 体框架 图见 图 1: 图 1 整体 流程图 6.1 数据 标准体系 质量 控制 6.1.1 数据标准制定 数据标准的制定按照数据标准管理的业务分类和定义规范指导要求,基于行业数据管控需求,进行 数据标准规范的制定 ,要求大数据平台按照该标准规范进行统一的数据管理。 数据标准制定包括数据标准的编制、数据标准的审核、数据标准的发布。数据标准化管理组织将数 据标准以正式发文的方式在内部进行发布,并在发布后将数据标准、版本说明保存备案。最

9、终将发布的 数据标准更新至数据标准管理模块中,数据 标准制定流程见 图 2: 标准制定 标准执行 标准维护 标准监控 数据 采集 质量 检核 数据 缓冲区 数据 标准层 数据 监控 血缘分析 系统 审计 问题 告警 资产 管控 检核 方案创建 检核任务 创建 检核 任务调度 检核 日志 数据 质量报告 数据标准 体系质量控制 数据采集质量 控制 数据存储质量 控制 数据 使用质量控制 DB15/T 1873 2020 4 图 2 数据 标准制定流程 数据标准制定流程描述如下 : a) 数据标准管理组织协调者组织数据提供者和执行者参与数据标准属性的收集和整理工作,并按 照协商一致的原则形成数据标

10、准初稿; b) 数据标准初稿进行多次的讨论和丰富后,形成数据标准送审稿提交给数据标准管理决策者; c) 经过数据标准管理决策者的讨论审核后,由数据标准管理组织协调者再次进行数据标准的修改 完善,并完成数据标准的发布。 6.1.2数据标准执行 数据标准管理执行流程见 图 3。 图 3 数据 标准执行流程 数 据 标 准 管 理 执 行 者 提 供 数 据 属 性 信 息 数 据 标 准 属 性 收 集 整 理 数 据 标 准 送 审 稿 征 求 意 见 数 据 标 准 初 稿 数 据 标 准 变 更 数 据 标 准 管 理 组 织 协 调 者 数 据 标 准 管 理 决 策 者 数 据 标 准

11、编 制 数 据 标 准 审 查 数 据 标 准 发 布 数 据 标 准 、 版 本 发 布 数 据 标 准 发 布 数 据 标 准 录 入 数 据 质 量 管 理 数 据 标 准 管 理 执 行 者 数 据 标 准 管 理 组 织 协 调 者 数 据 标 准 管 理 决 策 者 数 据 标 准 监 控 数 据 标 准 执 行 结 果 制 定 数 据 标 准 接 口 标 准 执 行 效 果 DB15/T 1873 2020 5 数据标准执行的流程步骤描述如下: a) 数据标 准制定发 布后,将数据标准录入到数据标准管理模块; b) 数据标准管理执行者按照发布的数据标准,制定和发布数据标准接口;

12、c) 数据标准管理模块将标准要求提供给数据质量管理,根据已录入系统的数据标准形成稽查规则, 对数据标准管理执行者制定和发布的数据标准接口中的内容进行相关的标准稽核监控; d) 将标准稽核结果发送给数据标准管理模块,并反馈给数据标准管理决策者和数据标准管理执行 者。 6.1.3 数据标准维护 数据标准的维护指数据标准建立后,根据业务需求的发展变化或外部数据标准要求不一致时,对数 据标准的内容进行变更和版本管理,见 图 4: 图 4 数据 标准维护 流程 数据标准维护流程描述 如下 : a) 对执行的相关数据标准进行变更请求的申请,组织该数据标准相关执行层和各数据运维者进行 讨论和变更需求汇总;

13、b) 由数据标准管理组织协调机构进行标准变更的审核; c) 讨论审议数据标准项的变更内容,并形成标准变更需求审批表提交给数据标准管理决策层进行 审批; d) 决策层将审批结果反馈给标准管理组织协调者,并由其进行数据标准发布及版本维护。 6.1.4 数据标准监控 数据标准监控实现对数据标准执行过程的监控,包括对数据标准的执 行、效果、问题进行监控管理, 为后期数据标准维护管理提供依据。数据标准的监控通过数据标准管理和元数据管理、数据质量管理协 同实现落地。 发 起 数 据 标 准 变 更 需 求 数 据 标 准 变 更 需 求 汇 总 在 变 更 需 求 审 批 表 中 签 署 意 见 审 议

14、数 据 标 准 变 更 项 数 据 标 准 变 更 数 据 标 准 管 理 执 行 者 数 据 标 准 管 理 组 织 协 调 者 数 据 标 准 管 理 决 策 者 数 据 标 准 、 版 本 发 布 DB15/T 1873 2020 6 6.2 数据 采集 质量 控制 为了 保证数据质量,根据数据仓库建设的总体 目标 和设计对数据的采集阶段提出严格、明确的质量 要求及必要的标准, 具体 要求如下 : a) 待 采集数据字段长度、精度、类型等应 优先 遵循遵循国家 标准 、 行业 标准的约定; b) 采集 过程支持元数据的保留,包含技术元数据和业务元数据; c) 支持 对元数据的 监控 ,

15、控制 数据库和表结构的异常修改 , 保证数据质量; d) 支持采集 阶段初步数据检核; 采集 阶段 具体 流程图见图 5: 图 5 采集 阶段流程 6.3 数据 存储质量 控制 在数据 存储阶段 需 通过多种检核规则及任务调度 方式 对数据进行检核, 数据 存储阶段要求如下: a) 支持 从 5个 维度、 7种 检核规则和自定义检核规则 对数据 进行数据质量检核; 1) 5个维度 包含完整性、规范性、准确性、唯一性、关联性; 2) 7种 检核规则包含 空值 校验、值域校验、格式校验、长度校验、精度校验、唯一性 约 束 校验、主外键校验; 3) 自定义 检核规则指根据具体业务场景,用户可以通过自

16、定义 SQL语句 的方式完成 对 数 据质量的检核; b) 支持检核 任务的创建,检 核规则的设定; c) 支持 检核任务的创建和检核 任务 调度方式的设定; d) 检核 任务调度支持自动调度和手动调度; e) 支持对 数据质量报告 的 查看的下载; f) 支持 数据的全生命周期管理; g) 支持 对元数据的版本管理 。 基于 检核规则对数据检核流程图 见 图 6: 开始 实时采集 定时 采集 全量 采集 增量 采集 初 步 质 量 检 核 源 数 据 缓 冲 区 源 数 据 标 准 层 数 据 源 接 入 结束 DB15/T 1873 2020 7 图 6 数据 检核 质量 检核流程说明:

17、a) 接入 待检核数据源; b) 创建 检核方案; 1) 针对 系统内置的检核规则, 选择 检核规则,具体包含 空值 校验、值域校验、格式校验、 长度校验、精度校验、唯一性 约束 校验、主外键校验 ;针对 自定义检核规则,通过自 定义 sql语句实现检核规则; 2) 确定 待 检核的对象, 即 选取待 检核 的数据库、待 检核 的表以及字段; c) 关联 检核方案,创建检核任务; d) 配置 检核任务的调度方式,可通过定时器实现自动调度,亦可通过人为实现 手工 调度; e) 任务 被调度后是查看任务执行日志; f) 支持 生成数据质量报告并提供下载功能 ,基于 质量报告可实现异常数据发现并处理

18、 。 6.4 数据使用质量控制 数据使用要求如下: a) 支持对 数据进行监控, 明确 数据的来源和去向; b) 支持数据 地图、血缘分析、影响 分析 等方式的数据展现 ; c) 支持 对数据资产的安全性管控; d) 支持 对操作日志 以及 用户登录、退出的日志审计; e) 支持 数据质量报 告分析 的查看及下载; f) 支持 问题数据 的 告警; g) 支持 对问题数据进行整改分析 。 数据使用 阶段流程 图 见 图 7: 数据源接入 检核 方案创建 检核 任务创建 规则 绑定 检核 对象绑定 任务 执行 任务日志 数据 质量报告 任务 调度 开始 结束 DB15/T 1873 2020 8

19、 图 7 数据 全流程监控流程图 数据 使用阶段流程 说明 : a) 在 数据 采集 和数据存储基础上, 实现 血缘分析、数据地图、影响分析、版本管理、质量报告、 问题数据整改分析、数据告警 、 质量评分; b) 使用 阶段 支持数据及 功能的权限控制 ; c) 支持 系统审计,包含操作日志审计和登录登出日志审计; 7 数据质量 评 分方法 7.1 规则评分 *(100-W) ( 1) 式 中: R 每个检核 规则 得分 ; I 数据集 D上被 检核出的 异常数据 总量 ; D 需要进行 检核的 数据集 , 对于 关系型数据库来说,一个数据集 由 若干条 记录 组成 ; W 规则 对应权重 值

20、,需 人工 设置每个规则的权重 。 7.2 任务 评分 ( 2) 式中 : T 检核任务评分 ; I 数据集 D上被 检核出的 异常数据 总量 ; W 规则 对应权重 值,需 人工 设置每个规则的权重 ; D 需要进行 检 核的 数据集 , 对于 关系型数据库来说,一个数据集 由 若干条 记录 组成 ; n 条 检核 任务中检核规则的个数。 注 : 一个检核任务 可 包含多条检核规则 。 数 据 采 集 数 据 存 储 血缘 分析 数据地图 影响 分析 版本 管理 质量报告 整改 分析 数据 告警 质量 评分 开始 权限 控制 系统 审计 结束 DB15/T 1873 2020 9 7.3 绩

21、效 评分 =(1-错误 数据总量 /检核 数据总量 )* =(1-错误 数据 表数量 /检核 数据 表数 量 )* =(1-错误 数据 表数量 /照管 数据表数量 )* P=( )/4 ( 3) 式中 : 评分 计算指标 之 数据问题 评分 ; 评分 计算指标 -数据问题权重 ; 评分 计算指标 之检核 指标问题 评分 ; 评分 计算指标 -检查 指标问题权重 ; 评分 计算指标 之 指标问题 评分 ; 评分 计算指标 -指标 问题权重 ; P 照管人对应数据库评分 ; 评分 计算指标 之自定义 评分 。 DB15/T 1873 2020 10 附录 A (资料性附录) 数据质量评价维度 A.

22、1 完整性 按照数据规则要求,数据元素被赋予数值的程度。即完整性指的是数 据信息是否存在缺失的状况, 数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所 能借鉴的价值会大大降低,完整性是数据质量评估标准的基础。 表 A.1 完整性 评价指标 序号 指标 名称 指标 描述 计算 方法 1 数据元素 完整性 按照 业务规则要求, 数据 集中应 被赋值的数据 元素 的赋值程度。 计算公式 : X=A/B 式中 A=被 赋值的数据集中元素 的 个数 ; B=预期 被赋值的 数据 集中 元素的 个数 2 数据 记录完整性 按照 业务规则要求, 数据 集中应 被赋值

23、的数据 记录 的赋值程度。 计算公式 : X=A/B 式中 A=被 赋值的数据集中元素 的 个数 ; B=预期 被赋值的 数据 集中 元素的 个数 A.2 规范性 数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。 表 A.1 规范性 评价指标 序号 指标 名称 指标 描述 计算 方法 1 数据 标准 数据 符合数据标准的度量。 注 1: 评价 数据质量时需要 收集 数据在 命名 、创建、定义 、 更新和归档时 遵循 的标准,包括 国际 标准、国家标准、 行 业 标准、 地方 标准或 相关 规定等。 注 2: 和 数据归档一样甚至更重要 , 在一个完整的数据规 则中, 旧数 据

24、 的销毁一般也有一个 比较详细 且具有可行性 的规定。 计算 公式: X=A/B 式中 A=满足 数据标准要求的 数据 集中 元素的个数 ; B=被 评价的数据 集中元素 个数 2 数据模型 数据 符合数据 模型 的度量。 注 1: 数据 模型是一种 直观 描述 组织 数据 结构 的 手段, 是 数据表达的规范。 注 2: 评价 数据质量时需要检查是否存在 清晰 且可理解的 数据模型 定义 以及这些数据的组织形式。 计算 公式: X=A/B 式中 A=满足 数据 模型 要求的 数据 集中 元素的个数 ; B=被 评价的数据 集中元素 个数 DB15/T 1873 2020 11 表 A.2 (

25、 续 ) 序号 指标 名称 指标 描述 计算 方法 3 元数据 数据 符合元数据 定义 的度量。 注 1: 元数 据 标注、描述或刻画其他数据 、 以使 检索或 使 用 数据 更容易。 评价数据 质量时需要 检查 是否提供可 解读 的元数据文档。 计算 公式: X=A/B 式中 A=满足元数据 定义的 数据 集中元 素的个数 ; B=被 评价的数据 集中元素 个数 4 业务 规则 数据 符合业务规则的度量。 注 1: 业务 规则是一种权威性原则或 业务 方针, 用来 描述 业务交互, 并 建立行动和数据行为结果 及 完整性的规则。 注 2: 评价 数据质量时需要 检查 是否存在 良好 归档的业

26、务 规则。 计算 公式: X=A/B 式中 A=满足业务 规则的 数据 集中元素 的个数 ; B=被 评价的数据 集中元素 个数 5 权威 参考数据 参考数据 是系统、应用软件 、 数据库、流程、 报告及 交易 记录 和 主记录用来参考 的 数值集合和分类表 。 注 1: 评价 数据质量时需要 收集 参考数据列表。 计算 公式: X=A/B 式中 A=满足参考 数据规则的 数据 集中 元素的个数 ; B=被 评价的数据 集中元素 个数 6 安全 规则 安全规则 是安全和隐私方面的规则, 包括 数据权限管理, 数据 脱敏处理 等 。 计算 公式: X=A/B 式中 A=满足安全 规范的 数据 集

27、中元素 的个数 ; B=被 评价的数据 集中元素 个数 A.3 一致性 数据与其他特定上下文中使用的数据无矛盾的程度。 即一致性是指数据是否遵循了统一的规范,数 据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。 表 A.2 一致性 评价指标 序号 指标 名称 指标 描述 计算 方法 1 相同 数据一致性 同一数据 在不同位置存储 或被 不同 应用 或 用户使用时, 数据 的 一致性, 数据 发生变化时,存储 在不同位置的数据 的同一 数据 被 同步修改。 计算 公式: X=A/B 式中 A=满足一致性 要求的 数据 集中元素的个数 ; B=被 评价的数据

28、 集中元素 个数; 2 关联数据 一致性 根据 一致 性约束规则 检查 关联 数据的一致性。 计算 公式: X=A/B 式中 A=满足一致性 要求的 数据 集中元素的个数 ; B=被 评价的数据 集中元素 个数; DB15/T 1873 2020 12 A.4 准确性 数据准确表示其所描述的真实实体(实际对象)真实值得程度。即准确性是指数据记录的信息是否 存在异常或错误。 表 A.3 准确性 评价指标 序号 指标 名称 指标 描述 计算 方法 1 数据 内容正确性 数据 内容是否是预期数据。 计算 公式: X=A/B 式中 A=满足数据 正确性要求的 数据 集中元素的个 数 。 B=被 评价的

29、数据 集中元 素 个数; 2 数据 格式合规性 数据格式包含(数据 类型、 数据 范围 、数据长度、 精度 等 )是否 满足预期要求。 计算 公式: X=A/B 式中 A=满足格式 要求的 数据 集中元素的个数 。 B=被 评价的数据 集中元素 个数; 3 数据 重复率 特定 字段、记录、文件 或 数据集 意外重复的度量。 计算 公式: X=A/B 式中 A=重复数据 集中元素的个数 B=被 评价的数据 集中元素 个数; 4 数据 唯一性 特定 字段、记录、文件 或 数据集 唯一性 的度量 。 计算 公式: X=A/B 式中 A=满足唯一性 要求的 数据 集中元素的个数 ; B=被 评价的数据

30、 集 中元素 个数; 5 脏数据 出现率 正确 字段 、 记录、 文件 或数据集 之外 无效数据的 度量 。 计算 公式: X=A/B 式中 A=有脏数据出现的数据 集中元素的个数 ; B=被 评价的数据 集中元素 个数; A.5 唯一性 数据唯一不重复。即唯一性是指度量哪些数据是重复数据或者数据的哪些属性是重复的。 A.6 关联性 数据的关联不可缺失的。即关联性是度量哪些关联的数据缺失或者未建立索引。 关联性 评价因素: a) 查找到 的信息和主题不完全 一致 , 但确是 其中某一方面的 阐述; b) 查找到 的信息集合多数在 用户 需要的检索主题内 ; c) 提供 的信息主题与 用户 检索

31、 主题相匹配 ; d) 查找 到的信息多数与用户 需要 的信息无关 ; e) 信息 必须和用户需求有相关性。 DB15/T 1873 2020 13 A.7 时效性 数据在时间变化中的正确程度。即及时性是指数据从产生到可以查看的时间间歇,也叫做数据的延 时时长,及时性对数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导 致分析出的结论失去借鉴意义。 表 A.4 时效性 评价指标 序号 指标 名称 指标 描述 计算 方法 1 基于 时间段的正确性 基于 日期范围内的记录 数或 频率 分布 符合 业务 需求的程度。 计算 公式: X=A/B 式中 A=满足有效性 要求 的数

32、据 集中元素的个数 ; B=被 评价的数据 集中元素 个数; 2 基于 时间点的及时性 基于时间戳 的记录数 、 频率分布或延时时间 符 合 业务需求的程度。 计算 公式: X=A/B 式中 A=满足及时性 要求 的数据 集中元素的个数 B=被 评价的数据 集中元素 个数; 3 时序性 数据集 中同一实体的数 据元素 之间 的相对时序 关系。 计算 公式: X=A/B 式中 A=满足时序性 要求 的数据 集中元素的个数 ; B=被 评价的数据 集中元素 个数; A.8 可访问性 数据 能被访问的程度 。 表 A.5 可访问性 评价指标 序号 指标 名称 指标 描述 计算 方法 1 可访问 数据 在需要时的可获 取性。 计算 公式: X=A/B 式中 A=满足可 访问性要求 的数据 集中元素的个数 B=被 评价的数据 集中元素 个数; 2 可用性 数据 在设定有效生存 周期 内的可 使用 性。 计算 公式: X=A/B 式中 A=满足可用性 要求 的数据 集中元素的个数 ; B=被 评价的数据 集中元素 个数

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 标准规范 > 地方标准

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1