DB35 T 1952-2020 公共信息资源开放 数据质量评价规范.pdf

上传人:bowdiet140 文档编号:1504365 上传时间:2021-04-20 格式:PDF 页数:17 大小:673.98KB
下载 相关 举报
DB35 T 1952-2020 公共信息资源开放 数据质量评价规范.pdf_第1页
第1页 / 共17页
DB35 T 1952-2020 公共信息资源开放 数据质量评价规范.pdf_第2页
第2页 / 共17页
DB35 T 1952-2020 公共信息资源开放 数据质量评价规范.pdf_第3页
第3页 / 共17页
DB35 T 1952-2020 公共信息资源开放 数据质量评价规范.pdf_第4页
第4页 / 共17页
DB35 T 1952-2020 公共信息资源开放 数据质量评价规范.pdf_第5页
第5页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 I ICS 35.020 CCS L 70 35 福建省地方标准 DB35/T 19522020 公共信息资源开放 数据质量评价规范 Open dataSpecification for quality evaluation 2020 - 12 - 30 发布 2021 - 03 - 30 实施 福建省市场监督管理局 发布 DB35/T 19522020 I 目 次 前 言 . . II 1 范围 . . 1 2 规范性引用文件 . 1 3 术语和定义 . . 1 4 数据集元数据描述 . 2 5 数据质量评价原则 . 3 6 数据质量评价方法 . 3 6.1 重复值分析法 . . 3 6.

2、2 缺失值分析法 . . 4 6.3 值域分析法 . . 4 6.4 逻辑关系分析法 . 4 6.5 词组比对分析法 . 4 6.6 实验观察法 . . 4 6.7 经验分析法 . . 4 7 数据质量评价指标 . 4 7.1 完整性 . . 4 7.2 一致性 . . 5 7.3 唯一性 . . 6 7.4 可机读性 . . 7 7.5 规范性 . . 8 7.6 及时性 . . 9 7.7 原始性 . . 9 7.8 非歧视性 . . 9 7.9 安全性 . . 10 8 数据质量评价步骤 . 10 8.1 步骤 . . 10 8.2 选择评价指标 . . 11 8.3 初步评价 . .

3、11 8.4 数据集元数据评价 . 11 8.5 标识数据记录评价 . 11 8.6 内容数据记录评价 . 11 8.7 形成评价结果 . . 12 附 录 A (资料性) 评价结果应用示例 . 13 DB35/T 19522020 II 前 言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由福建省经济信息中心提出。 本文件由福建省信息化标准化技术委员会归口。 本文件起草单位:福建省经济信息中心、浪潮软件股份有限公司。 本文件主要起草人:阙天豪、何坤山、郑

4、清溪、吴阳、戴起飞、张兆勇、鲍庆峰、许剑雄。 DB35/T 19522020 1 公共信息资源开放 数据质量评价规范 1 范围 本文件给出了公共信息资源开放数据集元数据描述,确立了数据质量评价的原则、方法、指标和步 骤。 本文件适用于公共信息资源管理、开放、开发和质量评价等活动中的数据质量评价。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T 740820 05 数据元和交换格式 信息交换 日期和时间表示法 GB/T 1

5、97102005 地理信息 元数据 GB/T 363442 018 信息技术 数据质量评价指标 3 术语和定义 GB/T 197102 005、GB/T 363442018界定的以及下列术语和定义适用于本文件。 3.1 政务部门 governme nt department 国家机关、经法律法规授权或者受委托管理公共事务的事业单位和团体组织。 3.2 公共信息资源 public infor mation resources 政务部门、公共服务企业在履行职责或经营过程中制作或获取的,以一定形式记录、保存的,与企 业和公众息息相关的文件、资料、图表和数据等各类信息资源。 3.3 公共信息资源开放

6、opening of public information resources 经过数据加工处理后,将不涉及国家秘密、商业秘密和个人隐私的公共信息资源,通过公共信息资 源开放平台,提供给社会使用的过程。 3.4 数据质量 dat a quality 在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。 DB35/T 19522020 2 来源:GB/T 363 442018,2.3 3.5 数据质量评价 data quali ty evaluation 按照数据质量评价指标体系,采用适当的方法对数据质量进行评估,并形成数据质量评价结果的过 程。 3.6 数据集 dataset 具有一定

7、主题,可以标识并可以被计算机化处理的数据集合。 来源:GB/T 363 442018,2.6 3.7 元数据子集 metada ta section 元数据的子集合,由相关的元数据实体和元素组成。 来源:GB/T 197 102005,4.8 3.8 数据项 data item 数据的不可分割的最小单位。 4 数据集元数据描述 数据集元数据包括标识子集和内容子集,描述见表1。 表1 数据集元数据 序号 子集 元素 填写说明 填写建议 1 标识子集 名称 缩略描述公共信息资源内 容的标题 由概括公共信息资源内容的标题和“信息”字 样组成 2 摘要 对公共信息资源内容进行 概要说明的文字 与公共信

8、息资源名称相对应 3 开放类型 公共信息资源面向社会开 放的类型 根据公共信息资源开放的实际情况,选择“授 权开放、普遍开放”之一 4 提供单位名称 公共信息资源提供单位的 名称 以公共信息资源提供单位的全称表示 5 提供单位统一社会 信用代码 公共信息资源提供单位的 统一社会信用代码 18位统一社会信用代码 6 提供单位地址 公共信息资源提供单位的 物理地址 省市区街号 7 提供单位联系方式 公共信息资源提供单位的 联系方式 电子邮箱或办公电话号码 DB35/T 19522020 3 表1 数据集元数据 (续) 序号 子集 元素 填写说明 填写建议 8 标识子集 更新周期 提供单位更新公共信

9、息 资源的周期 根据公共信息资源更新实际情况,选择“每 年、每半年、每季度、每月、每周、每日、 实时、其他”等周期之一; 属于结构化数据资源的,按更新频率较快的 数据项进行描述; 属于非结构化数据资源的, 则对公共信息资源整体进行描述 9 发布日期 提供单位发布公共信息 资源的日期 按照GB/T 7408-2005执行,格式为 YYYY-MM-DD 10 更新日期 提供单位更新公共信息 资源的日期 按照GB/T 7408-2005执行,格式为 YYYY-MM-DD 11 内容子集 数据集摘要 数据表名称;一个数据 集下可以有多个数据表 名称清晰、无歧义 12 数据集特征数据元 数据项名称、数据

10、项格 式、数据项是否脱敏 数据集特征数据元填写建议如下: a)数据项名称: 描述结构化信息资源中具体 数据项的标题,适用于格式为数据库、 电子 表格类等的信息资源 b)数据项格式:应依据数据类型,选择“字 符串型、数值型、货币型、日期型、日期时 间型、逻辑型、通用型、整型、双精度型、 浮点型、长文本、二进制”之一 c)数据项是否脱敏:选择“是、否”之一 5 数据质量评价原则 5.1 系统性 综合考虑各要素对数据质量的影响,全面评价公共信息资源开放应具备的条件、要求和优化提高数 据质量的要素。 5.2 通用性 根据不同参与主体、应用场景合理选择评价指标,并设置分值和权重。 5.3 可操作性 评价

11、内容和指标可量化,评价步骤和方法可操作,评价结果可使用。 6 数据质量评价方法 6.1 重复值分析法 DB35/T 19522020 4 在非冗余的情况下,将每条数据记录中的部分数据项或者所有数据项的取值,与所有的数据记录进 行逐一比对,识别重复记录。 6.2 缺失值分析法 对每条数据记录的所有数据项进行逐一检查,识别数据记录的数据项是否为空。 6.3 值域分析法 将数据项的取值与字段的取值区间进行比对,识别是否超出取值区间。 6.4 逻辑关系分析法 通过对数据记录中相关数据项取值的内在逻辑关系进行分析,识别违背逻辑关系的数据记录。 6.5 词组比对分析法 将数据记录目标数据项的取值与目标敏感

12、词、常见错词等词库内容进行比对,识别与词库相同的数 据记录。 6.6 实验观察法 设置某些条件,通过控制行为过程,观察符合条件的结果是否出现。 6.7 经验分析法 对比验证数据取值与日常生产生活中产生的经验取值,证实或证伪数据内容。 经验分析法常与逻辑关系分析法、词组比对分析法联合使用。 7 数据质量评价指标 7.1 完整性 完整性评价指标见表2。 表2 完整性评价指标 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 1 完 整 性 数据集 完整性 一个数据集是否碎片化,是 否人为拆分成多个数据集 经验 分析 数据集不完整得0 数据集完整得1 同一数据集按时间、地域、

13、 产品类型等属性,拆分成多 个数据集 2 标识子 集元数 据完整 性 标识子集元数据是否完整 缺失 值分 析 标识子集元数据填 写不完整得0 标识子集元数据填 写完整得1 标识子集元数据完整性示例 /说明如下: a)信息资源摘要为空 b)信息资源提供单位为空 DB35/T 19522020 5 表2 完整性评价指标 (续) 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 3 完 整 性 内容子 集元数 据完整 性 内容子集元数据是否完 整。 a 经验 分析 内容子集元数据 填写不完整得0 内容子集元数据 填写完整得1 内容子集元数据完整性示 例/说明如下: a)旅行社

14、名称、旅行社地 址是“旅行社名录”数据 集内容子集元数据; 如果缺 失“旅行社名称”这一元数 据, 数据集的使用价值明显 降低 b)一个内容子集仅有一个 元数据视为元数据不完整 4 标识数 据记录 数据项 完整性 标识数据记录的所有数据 项填写完整、无缺失 缺失 值分 析 数据项缺失得0 数据项完整得1 在 “旅行社名录” 数据集里, 标识数据记录的信息资源 摘要内容为空 5 内容数 据记录 完整性 一个数据集涵盖有效日期 内产生的所有数据记录 经验 分析 有效日期内数据 记录缺失得0 有效日期内数据 记录完整得1 在“天气预报信息”数据集 里, 若其一年内开放的数据 记录内容无法覆盖365天

15、, 视为数据记录不完整 6 内容数 据记录 数据项 完整性 每条数据记录的数据项填 写完整、无缺失 缺失 值分 析 A=数据项填写完 整的数据记录条 数 B=数据记录总数 在 “旅行社名录” 数据集里, 一条数据记录包括旅行社 名称、 旅行社地址基础数据 项; 所有旅行社名称取值缺 失, 或者旅行社地址取值缺 失的数据记录都是不完整 的 注: X代表评价值。 a 内容子集元数据保存了数据集的最基本、最重要信息,直接决定本数据集是否可用,每一个数据集的内容 子集元数据均有不同。数据质量评价时,根据数据集名称、内容、产生此数据集的业务、可能的应用场景等综合 确定数据集的内容子集元数据。 7.2 一

16、致性 一致性评价指标见表3。 DB35/T 19522020 6 表3 一致性评价指标 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 1 一 致 性 标识数 据记录 数据项 与元数 据一致 性 标识数据记录数据项与元 数据一致 逻辑 关系 分析、 经验 分析 标识数据记录数 据项与元数据不 一致得0 标识数据记录数 据项与元数据一 致得1 标识子集元数据中的更新 周期, 在实际内容中填写成 信息资源提供单位名称 2 内容数 据记录 数据项 与元数 据一致 性 内容数据记录数据项与元 数据一致 逻辑 关系 分析、 经验 分析 A=内容数据记录 数据项与元数据 一致的数

17、据记录 条数 B=数据记录总数 内容子集元数据是 “姓名” , 在实际内容中填写成 “ 有限公司” 3 内容数 据记录 数据项 与元数 据计量 单位一 致性 内容数据记录数据项与元 数据计量单位一致 逻辑 关系 分析、 经验 分析 A=内容数据记录 数据项与元数据 计量单位一致的 数据记录条数 B=数据记录总数 内容子集元数据的计量单 位是“万元/年”,在实际 内容中用“元/年”填写 4 内容数 据记录 一致性 同一时间周期或固定更新 频率内,针对同一事项开 放的内容数据记录一致、 不冲突 重复 值分 析、 经验 分析 A=内容数据记录 一致的数据记录 条数 B=数据记录总数 “天气预报信息”

18、中,若存 在两条同一时间、 同一地点 但天气状况不同的记录, 视 为数据记录不一致 注: X代表评价值。 7.3 唯一性 唯一性评价指标见表4。 DB35/T 19522020 7 表4 唯一性评价指标 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 1 唯 一 性 数据集 唯一性 数据集名称及内容唯一、不 重复 重复 值分 析 数据集名称及内容 重复得0 数据集名称及内容 不重复得1 同时含有两个名称为“5A级 旅游景区名录”的数据集且 内容相同,出现了数据集重 复 2 内容子 集元数 据唯一 性 内容子集的元数据唯一、不 重复 重复 值分 析 内容子集的元数据 重

19、复得0 内容子集的元数据 不重复得1 “5A级旅游景区名录”同时 含有两个名称为“景区名 称”的数据项,出现了数据 项重复 3 内容数 据记录 唯一性 内容数据记录唯一、不重复 重复 值分 析 A=数据记录唯一的 数据记录条数 B=数据记录总数 “5A级旅游景区名录”同时 含有两个名称为“公 园”的数据记录且全部数据 项完全一致,出现了数据记 录重复 注: X代表评价值。 7.4 可机读性 可机读性评价指标见表5。 表5 可机读性评价指标 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 1 可 机 读 性 数据集 可机读 性 可下载的数据集格式易被机 器读取,如CSV

20、、JSON、XML、 XLS等 实验 观察 数据集不可机读得 0 数据集可机读得1 数据集可机读性示例/说明 如下: a)提供PDF、图片等非可机 读格式数据集; b)将非结构化的DOC、PDF 等文件中的数据通过生硬方 式转化成XLS、 CSV等可机读 格式,而数据实质上仍是非 结构化的情况; c) 提供的数据包无法正常打 开; d) 提供的数据包中没有数据 DB35/T 19522020 8 表5 可机读性评价指标 (续) 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 1 可 机 读 性 数据集 可调用 性 可调用数据集调用情况 实验 观察 数据集调用不成功 得

21、0 数据集调用成功得 1 可调用数据集调用失败 7.5 规范性 规范性评价指标见表6。 表6 规范性评价指标 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 1 规 范 性 内容子 集元数 据规范 性 内容子集元数据名称清 晰、无歧义 词组 比对 分析、 经验 分析 内容子集元数据 名称不清晰、有歧 义得0 内容子集元数据 名称清晰、无歧义 得1 内容子集元数据名称含有 无法直接理解含义的字 词,如元数据内容是姓名 的,元数据名称为“xm” 2 标识数 据记录 信息资 源名称 规范性 信息资源名称清晰、无歧 义 经验 分析 信息资源名称不 清晰、有歧义得0 信息资源名

22、称清 晰、无歧义得1 无法通过信息资源名称直 接了解数据集内容,如数 据集名称为“抽查结果公 开信息”无法识别是针对 哪个领域的抽查结果信息 3 标识数 据记录 数据项 格式填 写规范 性 标识数据记录的数据项格 式与元数据一致 经验 分析 标识子集元数据 格式与实际业务 不一致的得0 标识子集元数据 格式与实际业务 一致的得1 标识子集元数据发布日期 格式要求为YYYY-MM-DD, 实际填写为MM-DD-YYYY 4 内容数 据记录 数据项 取值规 范性 内容数据记录中数据项填 写的内容清晰,有明确的 字典含义,且符合实际业 务值域 值域 分析 A=内容数据记录 数据项清晰且符 合实际值域

23、的数 据记录条数 B=数据记录总数 内容数据记录数据项取值 规范性示例/说明如下: a)数据项“性别”取值只 有“0、1”,无对应字典 表; b)数据项“年龄”中出现 了超出合理范围的取值 “200项 DB35/T 19522020 9 表6 规范性评价指标 (续) 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 5 规 范 性 内容数 据记录 数据项 格式填 写规范 性 内容数据记录的数据项格式 与元数据一致 经验 分析 A=内容子集元数据 格式与实际业务一 致的数据记录条数 B=数据记录总数 内容子集元数据发布日期格 式要求为YYYY-MM-DD,实际 填写为MM

24、-DD-YYYY 注: X代表评价值。 7.6 及时性 及时性评价指标见表7。 表7 及时性评价指标 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 1 及 时 性 数据集 公开及 时性 具有时效性的数据集应及时 公开或提供,公开的数据集 在有效期限内 经验 分析 数据集在有效期限 内不及时公开得0 数据集在有效期限 内及时公开得1 数据集公开及时性示例/说 明如下: a)已公开的数据集数据过 期; b)只有信息资源目录,没有 对应数据集 7.7 原始性 原始性评价指标见表8。 表8 原始性评价指标 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/

25、说明 1 原 始 性 数据集 原始性 以数据的原始格式向社会开 放 经验 分析 数据集不满足原始 性得0 数据集满足原始性 得1 湖库监测信息数据集,来自 监测设备的原始数据更有利 用价值 7.8 非歧视性 DB35/T 19522020 10 非歧视性评价指标见表9。 表9 非歧视性评价指标 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 1 非歧 视性 数据集 获取非 歧视性 任何人在任何时间均可获取 普遍开放数据,均可申请授 权开放数据 实验 观察、 经验 分析 数据集不满足非歧 视性得0 数据集满足非歧视 性得1 开放数据集的申请条件较难 达到, 如限制资质门

26、槛过高, 具有明显的倾向性 7.9 安全性 安全性评价指标见表10。 表10 安全性评价指标 序号 一级 指标 二级 指标 指标描述 评价 方法 计算方法 示例/说明 1 安 全 性 敏感数 据项脱 敏 已公开的数据应对敏感数据 项进行脱敏,不会对公共利 益或个人利益造成严重影响 词组 比对 分析 未对敏感数据项进 行脱敏得0 已对敏感数据项进 行脱敏得1 在“旅行社名录”数据集中, 包含了旅行社员工完整的身 份证号、学历信息 8 数据质量评价步骤 8.1 步骤 公共信息资源开放数据质量评价步骤见图1。 DB35/T 19522020 11 开始 选择评价指标 初步评价 数据集元数据评价 标识

27、数据记录评价 内容数据记录评价 形成评价结果 详 细 评 价 图1 数据质量评价步骤 8.2 选择评价指标 从第7章数据质量评价指标选择合适的数据集评价指标。 8.3 初步评价 按照数据集完整性、唯一性、可机读性、可调用性、公开及时性、原始性、获取非歧视性和安全性 等指标,进行数据质量分析评价。 8.4 数据集元数据评价 按照数据集标识子集元数据完整性,以及内容子集元数据完整性、唯一性和规范性等指标,进行数 据质量分析评价。 8.5 标识数据记录评价 按照数据集标识数据记录信息规范性,以及标识数据记录数据项完整性、数据项内容与元数据一致 性、数据项格式填写规范性等指标,进行数据质量分析评价。

28、8.6 内容数据记录评价 按照数据集内容数据记录完整性、一致性、唯一性,以及内容数据记录数据项完整性、与元数据一 致性、与元数据计量单位一致性、填写规范性、取值规范性、格式填写规范性等指标,进行数据质量分 析评价。 DB35/T 19522020 12 8.7 形成评价结果 综合初步评价和详细评价步骤的结果,汇总形成评价结果。若需要计算得分,推荐根据实际需要选 定适当的评价指标并设置分值和权重,按照百分制计分,得分达到或超过60分为合格,低于60分为不合 格。评价结果应用示例详见附录A。 DB35/T 19522020 13 附 录 A (资料性) 评价结果应用示例 评价结果应用示例见表A.1

29、。 表A.1 评价结果应用示例 序号 应用场景 示例 1 政务部门、公共服务企业 检测拟开放数据质量 政务部门在向公共信息资源开放平台提供数据前,选择完整性、一致性、 唯一性、规范性、及时性和安全性等指标,检测已加工处理的拟开放数 据是否符合质量要求 2 公共信息资源开放平台管理单位 检测拟开放数据质量 公共信息资源开放平台管理单位选择完整性、一致性、唯一性、可机读 性、规范性、及时性、原始性、非歧视性和安全性等指标,检查已加工 处理的拟开放数据是否达到开放要求 3 大数据管理部门 开展公共信息资源开放绩效考核 大数据管理部门开展公共信息资源开放绩效考核示例如下: a)大数据管理部门选择完整性

30、、一致性、唯一性、可机读性、规范性、 及时性、原始性、非歧视性和安全性等指标,对政务部门、公共服务企 业的公共信息资源开放情况进行评估、监督; b)大数据管理部门选择完整性、一致性、可机读性、规范性、及时性、 原始性、非歧视性和安全性等指标,对公共信息资源开放平台管理单位 的工作情况进行考核,据此拨付运行维护经费 4 数据使用者 评价已获取的开放数据质量 企业、个人根据实际需要,选择可机读性、及时性、原始性和非歧视性 等指标,评价已获取的开放数据质量 DB35/T 19522020 14 参考文献 1 GB/T 21063.32007 政务信息资源目录体系 第3部分:核心元数据 2 WS 3702012 卫生信息基本数据集编制规范 3 中共中央网络安全和信息化委员会办公室 国家发展和改革委员会 工业和信息化部公共信息 资源开放试点工作方案(中网办发文201724号) 4 郑磊.开放政府数据评估框架、指标与方法研究J.图书情报工作,201 6,60(18):43-55.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 标准规范 > 地方标准

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1