DB52 T 1540.4-2021 政务数据 第4部分:数据质量评估规范.pdf
《DB52 T 1540.4-2021 政务数据 第4部分:数据质量评估规范.pdf》由会员分享,可在线阅读,更多相关《DB52 T 1540.4-2021 政务数据 第4部分:数据质量评估规范.pdf(16页珍藏版)》请在麦多课文档分享上搜索。
1、 ICS 35.020 CCS L 70 DB52 贵州省地方标准 DB52/T 1540.42021 政务数据 第 4 部分:数据质量评估规范 Government datapart 4:data qu ality assessment specification 2021 - 08 - 18 发布 2021 - 12 - 01 实施 贵州省市场监督管理局 发布 DB52/T 1540.42021 I 目 次 前言 . . II 1 范围 . . 1 2 规范性引 用文件 . . 1 3 术语和定义 . . 1 4 评估指标 . . 2 5 评估方法 . . 4 6 评估流程 . . 5 7
2、 评估结果应用 . . 6 附录 A(资料性) 评估指标分值 . 7 参考文献 . . 8 DB52/T 1540.42021 II 前 言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起 草。 本文件是DB52/T 1540的第4部分。 DB52/T 1540已经发布了以下部分: 第1部分:术语; 第2部分:元数据管理规范; 第3部分:数据清洗加工规范; 第 4部分:数据质量评估规范; 第 5部分:共享交换基本要求; 第 6部分:安全技术规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由贵州省大数据发展
3、管理局提出。 本文件由贵州省大数据标准化技术委员会(GZ/TC 17)归口。 本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、贵 州省信息中心、贵州省量子信息和大数据应用技术研究院、云上贵州大数据产业发展有限公司、重庆昱 普生科技发展有限公司。 本文件主要起草人:韦超、刘彦嘉、韩朱旸、蒋开明、徐明春、田野、杨鹏、唐昶、张洋、姚茂峰、 关艳梅、杨建国、陈驰、雷伟、陆莹、郑如顺、黄明峰、刘军、韩朱旸、谭璐、王仕品、黄小梅、钟凯 馨、潘伟杰、邵建平、谭敏、王珂。 DB52/T 1540.42021 1 政务数据 第 4 部分:数据质量评估规范 1 范围 本文件规定
4、了政务数据质量评估的指标、方法、流程和结果应用等要求。 本文件适用于政务数据质量评估工作。 2 规范性引用文件 本文件没有规范性引用文件。 3 术语和定义 下列术语和定义适用于本文件。 3.1 数据 data 对事实、概念或指令的一种形式化表示,适用于以人工或自动方式进行通信、解释或处理。 来源:GB/T 35295- 2017,2.2.1 3.2 政务部门 government department 各级地方党委、人大、政府、政协、法院、检察院及其直属各部门(单位),以及法律法规授权具 有行政职能的事业单位和社会组织。 3.3 政务数据 govern ment data 政务部门及其技术支撑
5、单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。 来源:GB/T 38664.1 2020,3.1 3.4 数据质量 data q uality 在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。 来源:GB/T 25000.12 2017,4.3 DB52/T 1540.42021 2 4 评估指标 4.1 指标框架 数据质量评估指标框架见图1。评估指标包括以下内容: a) 内容质量:包括数据规范性、准确性、完整性和可用性; b) 过程质量:包括数据处理过程的处理效果、一致性; c) 效用质量:包括数据可访问性、时效性。 图1 数据质量评估指标框架图 4.2 指标说明
6、 数据质量评估指标说明见表1。 DB52/T 1540.42021 3 表1 数据质量评估指标说明 一级指 标 二级指 标 三级指标 指标描述 内容 质量 规范性 命名规范性 数据库、数据集、数据元的命名方式符合相关命名规范的情况。 元数据规范性 元数据描述符合相关规范的情况。 参考数据规范性 参考数据符合既有格式及规范的情况。 数据权限规范性 是否基于相关法律法规制定数据安全权限的规范性文件。 敏感字段脱敏占比 已脱敏字段占全部字段的比例。 准确性 数据格式合规性 数据格式(数据类型、数据范围、数据长度、精度、编码等) 是否满足预期要求,如手机号、身份证号、性别、统一社会信 用代码等。具体体
7、现为满足格式要求的数据集字段数占总数据 集的字段总数的比例。 数据重复率 特定字段、记录、文件或数据集中存在重复数据的比例。 数据唯一性 特定数据字段、记录、文件或数据集唯一标识的程度,具体体 现为满足唯一性的数据集个数与总数据集个数的比例。 脏数据出现率 脏数据出现率低于阈值的数据集的比例。 完整性 数据元素空值率 数据元符合数据元管理要求,不存在值为空的现象。 数据记录空值率 数据记录内容中存在空值的情况。 数据记录缺失率 (融合应用时)数据记录内容覆盖所有数据,不存在缺失现象。 可用性 数据字段可用性 数据字段值有效、可用的比例。 依赖字段可用性 存在依赖关系的字段同时非空的比例。 数据
8、集可用性 数据集由多个字段组成,根据字段的可用率计算整个数据集的 可用率。 数据接口可用性 数据接口调用能够准确、正常的返回请求的比例。 过程 质量 处理效 果 数据合格率 校验后符合数据定义和规则的数据与总体数据的比例。 清洗保留率 清洗后的数据量占清洗前数据总量的比例。 一致性 相同数据一致性 同一数据在不同位置存储或被不同应用或用户使用时,数据的 一致情况。 关联数据一致性 符合基础数据元组合的数据集的比例。 效用 质量 可访问 性 数据字段可访问率 可访问的数据字段的数量与总数的比例。 数据集可访问率 可访问的数据集的数量与数据集总数的比例。 数据接口有效性 可访问接口正确性。 时效性
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
本资源只提供5页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB52 1540.4-2021 政务数据 第4部分:数据质量评估规范 1540.4 2021 政务 数据 部分 质量 评估 规范
![提示](http://www.mydoc123.com/images/bang_tan.gif)