1、 ICS 35.020 CCS L 70 DB52 贵州省地方标准 DB52/T 1540.42021 政务数据 第 4 部分:数据质量评估规范 Government datapart 4:data qu ality assessment specification 2021 - 08 - 18 发布 2021 - 12 - 01 实施 贵州省市场监督管理局 发布 DB52/T 1540.42021 I 目 次 前言 . . II 1 范围 . . 1 2 规范性引 用文件 . . 1 3 术语和定义 . . 1 4 评估指标 . . 2 5 评估方法 . . 4 6 评估流程 . . 5 7
2、 评估结果应用 . . 6 附录 A(资料性) 评估指标分值 . 7 参考文献 . . 8 DB52/T 1540.42021 II 前 言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起 草。 本文件是DB52/T 1540的第4部分。 DB52/T 1540已经发布了以下部分: 第1部分:术语; 第2部分:元数据管理规范; 第3部分:数据清洗加工规范; 第 4部分:数据质量评估规范; 第 5部分:共享交换基本要求; 第 6部分:安全技术规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由贵州省大数据发展
3、管理局提出。 本文件由贵州省大数据标准化技术委员会(GZ/TC 17)归口。 本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、贵 州省信息中心、贵州省量子信息和大数据应用技术研究院、云上贵州大数据产业发展有限公司、重庆昱 普生科技发展有限公司。 本文件主要起草人:韦超、刘彦嘉、韩朱旸、蒋开明、徐明春、田野、杨鹏、唐昶、张洋、姚茂峰、 关艳梅、杨建国、陈驰、雷伟、陆莹、郑如顺、黄明峰、刘军、韩朱旸、谭璐、王仕品、黄小梅、钟凯 馨、潘伟杰、邵建平、谭敏、王珂。 DB52/T 1540.42021 1 政务数据 第 4 部分:数据质量评估规范 1 范围 本文件规定
4、了政务数据质量评估的指标、方法、流程和结果应用等要求。 本文件适用于政务数据质量评估工作。 2 规范性引用文件 本文件没有规范性引用文件。 3 术语和定义 下列术语和定义适用于本文件。 3.1 数据 data 对事实、概念或指令的一种形式化表示,适用于以人工或自动方式进行通信、解释或处理。 来源:GB/T 35295- 2017,2.2.1 3.2 政务部门 government department 各级地方党委、人大、政府、政协、法院、检察院及其直属各部门(单位),以及法律法规授权具 有行政职能的事业单位和社会组织。 3.3 政务数据 govern ment data 政务部门及其技术支撑
5、单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。 来源:GB/T 38664.1 2020,3.1 3.4 数据质量 data q uality 在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。 来源:GB/T 25000.12 2017,4.3 DB52/T 1540.42021 2 4 评估指标 4.1 指标框架 数据质量评估指标框架见图1。评估指标包括以下内容: a) 内容质量:包括数据规范性、准确性、完整性和可用性; b) 过程质量:包括数据处理过程的处理效果、一致性; c) 效用质量:包括数据可访问性、时效性。 图1 数据质量评估指标框架图 4.2 指标说明
6、 数据质量评估指标说明见表1。 DB52/T 1540.42021 3 表1 数据质量评估指标说明 一级指 标 二级指 标 三级指标 指标描述 内容 质量 规范性 命名规范性 数据库、数据集、数据元的命名方式符合相关命名规范的情况。 元数据规范性 元数据描述符合相关规范的情况。 参考数据规范性 参考数据符合既有格式及规范的情况。 数据权限规范性 是否基于相关法律法规制定数据安全权限的规范性文件。 敏感字段脱敏占比 已脱敏字段占全部字段的比例。 准确性 数据格式合规性 数据格式(数据类型、数据范围、数据长度、精度、编码等) 是否满足预期要求,如手机号、身份证号、性别、统一社会信 用代码等。具体体
7、现为满足格式要求的数据集字段数占总数据 集的字段总数的比例。 数据重复率 特定字段、记录、文件或数据集中存在重复数据的比例。 数据唯一性 特定数据字段、记录、文件或数据集唯一标识的程度,具体体 现为满足唯一性的数据集个数与总数据集个数的比例。 脏数据出现率 脏数据出现率低于阈值的数据集的比例。 完整性 数据元素空值率 数据元符合数据元管理要求,不存在值为空的现象。 数据记录空值率 数据记录内容中存在空值的情况。 数据记录缺失率 (融合应用时)数据记录内容覆盖所有数据,不存在缺失现象。 可用性 数据字段可用性 数据字段值有效、可用的比例。 依赖字段可用性 存在依赖关系的字段同时非空的比例。 数据
8、集可用性 数据集由多个字段组成,根据字段的可用率计算整个数据集的 可用率。 数据接口可用性 数据接口调用能够准确、正常的返回请求的比例。 过程 质量 处理效 果 数据合格率 校验后符合数据定义和规则的数据与总体数据的比例。 清洗保留率 清洗后的数据量占清洗前数据总量的比例。 一致性 相同数据一致性 同一数据在不同位置存储或被不同应用或用户使用时,数据的 一致情况。 关联数据一致性 符合基础数据元组合的数据集的比例。 效用 质量 可访问 性 数据字段可访问率 可访问的数据字段的数量与总数的比例。 数据集可访问率 可访问的数据集的数量与数据集总数的比例。 数据接口有效性 可访问接口正确性。 时效性
9、 时段数据正确性 日期范围的记录或者频率分布符合业务需求的情况。 时点数据正确性 特定时点的记录数、频率分布或延迟时间符合业务需求的情况。 数据时序正确性 数据时序的正确性。 DB52/T 1540.42021 4 5 评估方法 5.1 检核方法 数据质量评估按照评估指标对数据质量进行检核,检核方法包括: a) 系统检核:使用数据质量管理系统等数据质量工具实现自动检核,如自定义 SQL 语句检核; b) 人工检核:根据评估指标,结合个人专业判断进行数据检核,如资料对比、经验判断等。 5.2 检核方式 5.2.1 全量检核 对涉及的所有数据进行逐一检核数据质量。 5.2.2 增量检核 对涉及的数
10、据,在特定的范围和时间段内新增的数据进行逐一检核数据质量。 5.2.3 抽样检核 按照抽样方案,对抽取的数据进行逐一检核数据质量。 5.3 分值设计 评估指标分值设计用绝对权数表示,绝对权数等同于各指标满分分值。各层级评估指标分值设计见 附录A。 5.4 结果计算 评估对象的最终评估总得分按公式(1)进行计算。一级指标得分按公式(2)计算,二级指标得分 按公式(3)进行计算。 3 1 i i PF . (1) i a n ij j FS . (2) ij m ijk kb ST . (3) 式中: P 评估对象最终总得分; i 第 i 个一级指标; iF 第 i 个一级指标实际得分; j 第
11、j 个二级指标; a 分解于第 i 个一级指标的起始二级指标序号; n 分解于第 i 个一级指标的结尾二级指标序号; ijS 第 j 个二级指标(分解于第 i 个一级指标)实际得分; DB52/T 1540.42021 5 k 第 k 个二级指标; b 分解于第 j 个一级指标的起始二级指标序号; m分解于第 j 个一级指标的结尾二级指标序号; ijkT 第 k 个三级指标(分解于第 j 个二级指标)实际得分。 6 评估流程 6.1 流程图 数据质量评估流程见图2,包括评估准备、指标选择、规则确定、评估实施、结果核验、报告编制。 图2 数据质量评估流程图 6.2 评估准备 评估前应了解具体业务
12、对特定政务数据的需求,确定评估目的、对象及范围、评估方式,编制数据 质量评估方案。 6.3 指标选择 根据明确的评估目的,按照第3章规定选择合适的评估指标,并确定评估指标分值。 6.4 规则确定 根据选定的评估指标、评估对象确定数据质量检核规则。 6.5 评估实施 6.5.1 自评估 按照数据质量评估方案确定的评估指标对评估对象进行自评估。 6.5.2 质量检核 按照数据质量检核规则对数据进行数据质量检核。 DB52/T 1540.42021 6 6.6 结果核验 结合自评估情况,对检核结果进行核验,根据不同数据使用场景和业务需求对数据质量评估得分进 行分级评价,确定数据质量好坏。 6.7 报
13、告编制 根据评估结果编制评估分析报告,内容宜包括但不限于:评估对象及范围、评估指标、计分规则、 评估检核方法、评估实施过程、质量问题。 7 评估结果应用 7.1 数据质量评估报告反映的数据质量问题,及时反馈数据提供方、数据处理方和数据使用方的相关 部门及人员进行处理。 7.2 跟踪数据质量问题的处理,形成数据质量问题的闭环处置。 7.3 通过数据质量问题及其相关处理经验的汇总、分析,逐步积累形成包含数据质量检核规则、质量 问题描述、针对性解决方案的数据质量知识库。 DB52/T 1540.42021 7 A A 附 录 A (资料性) 评估指标分值 评估指标分值见表A.1。 表A.1 评估指标
14、分值 一级指标 一级指标分值 二级指标 二级指标分值 三级指标 三级指标分值 1 内容质量 56 1.1 规范性 20 1.1.1 命名规范性 4 1.1.2 元数据规范性 4 1.1.3 参考数据规范性 4 1.1.4 数据权限规范性 4 1.1.5 敏感字段脱敏占比 4 1.2 准确性 15 1.2.1 数据格式合规性 4 1.2.2 数据重复率 4 1.2.3 数据唯一性 4 1.2.4 脏数据出现率 3 1.3 完整性 9 1.3.1 数据元素空值率 3 1.3.2 数据记录空值率 3 1.3.3 数据记录缺失率 3 1.4 可用性 12 1.4.1 数据字段可用性 3 1.4.2 依
15、赖字段可用性 3 1.4.3 数据集可用性 3 1.4.4 数据接口可用性 3 2 过程质量 20 2.1 处理效果 10 2.1.1 数据合格率 5 2.1.2 清洗保留率 5 2.2 一致性 10 2.2.1 相同数据一致性 5 2.2.2 关联数据一致性 5 3 效用质量 24 3.1 可访问性 12 3.1.1 数据字段可访问率 4 3.1.2 数据集可访问率 4 3.1.3 数据接口有效性 4 3.2 时效性 12 3.2.1 时段数据正确性 4 3.2.2 时点数据正确性 4 3.2.3 数据时序正确性 4 合计 100 100 100 注1:三级指标分值=三级指标满分分值(A/B
16、)。 注2:A=满足要求的数据个数,B=被评估的数据总数。 DB52/T 1540.42021 8 参 考 文 献 1 GB/T 25000.12 -2017 系统与软件工程 系统与软件质量要求和评价(SQuaRE) 第12部分: 数据质量模型 2 GB/T 35295-2 017 信息技术 大数据 术语 3 GB/T 35589 -2017 信息技术 大数据技术参考模型 4 GB/T 36344 -2018 信息技术 数据质量评价 5 GB/T 38664 .1-2020 信息技术 大数据 政务数据开放共享 第1部分:总则 6 GA/T 100 0-2011 公安信息化数据质量管理规范 7 LY/T 2922- 2017 林业数据质量 评价方法 8 SY/T 700 5-2014 数据质量控制与评估原则 _ DB52/T 1540.4-2021