ImageVerifierCode 换一换
格式:PDF , 页数:16 ,大小:914.80KB ,
资源ID:1545310      下载积分:5000 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
如需开发票,请勿充值!快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
注意:如需开发票,请勿充值!
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【http://www.mydoc123.com/d-1545310.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(DB37 T 4646.2—2023 公共数据 数据治理规范 第2部分:数据清洗比对.pdf)为本站会员(王申宇)主动上传,麦多课文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知麦多课文库(发送邮件至master@mydoc123.com或直接QQ联系客服),我们立即给予删除!

DB37 T 4646.2—2023 公共数据 数据治理规范 第2部分:数据清洗比对.pdf

1、 ICS 35.240 CCS L 67 37 山东省地方标准 DB37/T 4646.22023 公共数据 数据治理规范 第 2 部分:数据清洗比对 Public dataData governance specificationPart 2:Data cleaning and comparison2023-12-28 发布2024-01-28 实施山东省市场监督管理局发 布 DB37/T 4646.22023 I 目次 前言.II 引言.III 1 范围.1 2 规范性引用文件.1 3 术语和定义.1 4 概述.1 5 数据探查.1 6 数据质量检查.1 检查规则制定.1 6.1 质量检查

2、实施.2 6.2 7 问题数据修正.2 数据修正要求.2 7.1 数据修正方法.2 7.2 8 数据转换.6 9 数据安全.6 附录 A(规范性)数据清洗比对流程.7 附录 B(资料性)数据探查清单示例.8 附录 C(资料性)数据质量检查规则示例.9 附录 D(资料性)数据质量检查报告示例.10 附录 E(资料性)数据转换规则示例.11 参考文献.12 DB37/T 4646.22023 II 前言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。本文件是DB37/T 4646公共数据 数据治理规范的第2部分。DB37/T 4646已经发布了以

3、下部分:第1部分:数据归集;第2部分:数据清洗比对;第3部分:数据返还;第4部分:资源服务目录。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由山东省大数据局提出、归口并组织实施。DB37/T 4646.22023 III 引言 为构建完善全省一体化数据资源体系,强化数据供给,提升数据治理能力,深化数据创新应用,山东省先后印发山东省“十四五”数字强省建设规划(鲁政字2021128号)等一系列政策文件,对全省一体化数据资源体系建设和管理提出要求。为进一步发挥标准化在全省数据治理工作规范化开展中的保障作用,针对当前数据治理中数据归集、数据清洗比对、数据返还、资源服

4、务目录等工作存在的普遍问题,制定DB37/T 4646公共数据 数据治理规范系列标准。DB37/T 4646拟由以下四个部分构成。第 1 部分:数据归集。目的在于规范各级公共管理和服务机构归集数据至省一体化大数据平台的流程和要求。第 2 部分:数据清洗比对。目的在于规范对归集至省一体化大数据平台的数据开展数据清洗比对工作的流程、方法和要求。第 3 部分:数据返还。目的在于规范各级公共管理和服务机构依托省一体化大数据平台开展数据返还工作的流程和要求。第 4 部分:资源服务目录。目的在于规范各级公共管理和服务机构依托省一体化大数据平台开展资源服务目录管理和应用的工作要求。DB37/T 4646.2

5、2023 1 公共数据 数据治理规范 第 2 部分:数据清洗比对 1 范围 本文件规定了公共数据清洗比对的数据探查、数据质量检查、问题数据修正、数据转换和数据安全等要求。本文件适用于对归集至省一体化大数据平台的数据开展数据清洗比对工作,各级公共管理和服务机构数据清洗比对工作参照执行。2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 2261.12003 个人基本信息分类与代码 第1部分:个人性别代码 GB/T 222392019 信

6、息安全技术 网络安全等级保护基本要求 GB/T 352732020 信息安全技术 个人信息安全规范 GB/T 363442018 信息技术 数据质量评价指标 DB37/T 4646.12023 公共数据 数据治理规范 第1部分:数据归集 3 术语和定义 DB37/T 4646.12023界定的以及下列术语和定义适用于本文件。3.1 数据标准 data standard 数据的命名、定义、结构和取值范围方面的规则和基准。来源:GB/T 363442018,2.8 4 概述 对归集至省一体化大数据平台的数据进行清洗比对,通过数据探查、数据质量检查、问题数据修正和数据转换,提升数据质量。数据清洗比对

7、流程应符合附录A。5 数据探查 应根据数据库表结构、数据字典等,对归集数据进行数据探查,形成数据探查清单,示例见附录5.1 B。如存在数据探查清单与数据库表结构不一致、数据字典缺失等情况,应进行补充修改。5.2 6 数据质量检查 检查规则制定 6.1 DB37/T 4646.22023 2 6.1.1 数据质量检查规则应基于 GB/T 36344 中的数据质量评价指标制定,数据质量检查规则应符合国家标准、行业标准和地方标准。6.1.2 数据质量检查规则应基于业务特征和数据特点制定,并同步至数据质量检查规则库,数据质量检查规则示例见附录 C。6.1.3 数据质量检查规则应通过数据质量检查规则库统

8、筹管理并进行动态更新维护。质量检查实施 6.2 应基于数据探查清单为归集数据配置数据质量检查规则,进行数据质量检查,生成数据质量检查报告。数据质量检查报告包括但不限于数据质量总体情况、表数据质量情况、问题数据情况等,数据质量检查报告示例见附录D。7 问题数据修正 数据修正要求 7.1 7.1.1 对于存在数据质量问题的归集数据,应根据数据质量检查报告选择合适的数据修正方法,其中:a)对于存在字段缺失、记录缺失和数值缺失的数据应选择合适的缺失值修正方法,主要包括删除处理和填充处理;b)对于存在逻辑、格式、值域等问题的数据应选择合适的违规值修正方法,主要包括删除处理和修改处理;c)对于存在字段重复

9、和记录重复的数据应选择合适的重复值修正方法,主要包括字段排重、依关键字段的记录排重和依重复度的记录排重;d)对于存在冲突的数据应选择合适的冲突值修正方法,主要包括字段冲突处理和记录冲突处理;e)对于未及时更新的数据,应对数据尽快进行更新。7.1.2 应将完成修正的数据重新归集至省一体化大数据平台。数据修正方法 7.2 7.2.1 缺失值修正 7.2.1.1 删除处理 出现以下情况可删除空缺记录:a)某条记录的一个或多个关键字段空缺;b)某条记录字段缺失率超过设定的值,且缺失值字段重要性低。7.2.1.2 填充处理 7.2.1.2.1 线下人工校验填充 缺失字段重要性高时可通过线下人工校验等方法

10、进行填充,以保证填充值的准确率,如人工对接相关机构获取信息进行填充。7.2.1.2.2 常量填充 可对空缺值进行常量填充,即使用一个常量填充该字段所有空缺值。7.2.1.2.3 统计填充 DB37/T 4646.22023 3 可对该字段中非空缺值进行统计,根据统计结果选择空缺值填充内容,要求包括但不限于:a)字段类型为数值型时,可使用非空缺值的平均值、最大值、最小值、众数、某分位数等进行填充;b)字段类型为日期型和日期时间型时,可使用非空缺值的平均日期或时间、最近日期或时间、最远日期或时间等进行填充;c)字段类型为字符型时,可对非空缺值分类并统计出各类别的数量和占比,根据各类别数量或占比选择

11、如最大量、最小量等进行填充。7.2.1.2.4 条件填充 可根据该条记录中其它非空字段的特点,设置关联条件,对空缺值进行填充。设定A字段为待填充的含空缺值的字段,B为关联字段,要求包括但不限于:a)B 字段与 A 字段存在强关联关系,可通过 B 字段推理出 A 字段的内容,如学位为硕士的记录,对应学历为研究生;b)B 字段对 A 字段有约束关系,可通过 B 字段推导出 A 字段内容,如通过身份证件号码可推导出年龄、出生日期、性别等。7.2.1.2.5 分析填充 可选择分析字段,设置分析方法进行分析并填充,方法包括但不限于:a)关联分析:使用关联分析的挖掘方法,寻找出强关联的字段,根据强关联字段

12、关联情况寻找最可能的值;b)聚类分析:使用聚类分析的挖掘方法,将非空数据记录聚类成若干簇,根据簇中字段特点选择最可能的值;c)回归分析:使用回归分析的挖掘方法计算最可能的值。7.2.1.2.6 规则填充 可按照相关国家标准、行业标准和地方标准等规范文件中的规则和要求或者预设的规则进行填充,如人的性别名称为缺失值,性别代码为1,按照GB/T 2261.12003规则,对应填充性别名称为男性。7.2.2 违规值修正 7.2.2.1 删除处理 7.2.2.1.1 记录删除 出现以下情况可删除违规记录:a)关键字段存在违规值,且无法恢复,如自然人身份证件号码为“330*1420”,无法识别到具体人员时

13、可删除记录;b)编码错误导致大量违规值存在,且无法恢复,如因编码错误导致行驶证中车牌号数据存在大量“00000”时可删除记录;c)字段取值不符合逻辑,如存在幼儿园儿童入学年龄大于 18 岁的记录时可删除记录。7.2.2.1.2 内容删除 可删除违规值字段内容,作为空缺值处理,如自然人出生年月为违规值“2099-12-12”、自然人身高字段超过3 m等,可删除该字段的内容。7.2.2.1.3 字符删除 DB37/T 4646.22023 4 可设置规则后删除违规字符,或直接将违规字符替换为空,出现以下情况可删除违规字符:a)日期型或日期时间型数据中含有如“()”等违规字符;b)姓名等字段中含有空

14、格;c)身份证件号码等字段中含有 X 以外的其它字母或字符。7.2.2.2 修改处理 7.2.2.2.1 人工校验 数据量较小,违规值较少的情况可采用人工校验修改方式,如自然人出生日期为“2010-12/12”,可人工修改为“2010-12-12”,人工修改违规值应保证修正值的准确度。7.2.2.2.2 字符替换 可将违规字符进行替换,替换方法包括但不限于:a)规则替换:设定替换规则,将不同的违规字符对应替换为规则内字符,如设定截取自然人身份证件号码第 714 位为自然人出生日期的替换规则;b)精确替换:设置匹配规则做精确替换,如“&”替换为“和”;c)模糊替换:设置匹配规则做模糊替换,如“&

15、*”(*代表其他字符)替换为“和”。7.2.2.2.3 字典匹配 对于数据内容不在字典内的字段,可选择字典匹配方式处理,匹配方式包括但不限于:a)模糊匹配:新增规则字典,设置匹配规则后做模糊对应,如行政区划名称“济南”匹配替换“济南市”;b)精确匹配:新增规则字典,设置匹配规则后做精确对应,如章丘行政区划由“370181”变更为“370114”,可以此设置规则做精准匹配替换。7.2.2.2.4 数值转换 数值型数据中存在数据单位不统一的情况,可采用数值转换方式处理,如数据标准规定的单位是米,而待修正数据单位为厘米,可通过数值转换的方式,对待修正数据除以100。数值转换一般需人工分析并设置转换规

16、则。7.2.2.3 其他方式 处理违规值的其他方式包括但不限于:a)近似填充:通过考察相近的值平衡违规值,可将违规值修改为离违规值最近的正常值,或修改为离违规值较近的若干个正常值的平均值等,如幼儿园儿童入学年龄数据中,有一条数据为 18 岁,其他人为 58 岁,将其修改为离违规值最近的正常值 8 岁;b)回归分析:通过回归函数拟合数据,光滑违规值,如幼儿园儿童入学年龄数据中,有一条数据为 18 岁,其他人为 58 岁,可将儿童按年龄分组,使用回归相关算法,计算各年龄人数,将其修改为曲线中最平滑的数值;c)统计分析:依据统计的方法修改违规值,如将违规值修改为正常值的平均值,如幼儿园儿童入学年龄数

17、据中,有一条数据为 18 岁,其他人为 58 岁,将其修改为正常值的平均值 7 岁;d)常量替换:将违规值替换为常量,如幼儿园儿童入学年龄数据中,有一条数据为 18 岁,其他人为 58 岁,将其修改为常量 6 岁。7.2.3 重复值修正 DB37/T 4646.22023 5 7.2.3.1 字段排重 对于重复字段,可选择保留某一字段,删除其它重复的字段,方式包括但不限于:a)人工选择:由人工选择保留字段,删除其它重复字段;b)依标准保留:依据数据标准,保留符合数据标准的字段;c)依质量保留:依据数据质量检查结果,保留数据质量问题最少的字段;d)顺序保留:按字段出现的顺序,保留第一个或最后一个

18、字段。7.2.3.2 依关键字段的记录排重 多条记录出现同一字段重复时,可选择关键字段进行排重,方式包括但不限于:a)人工选择:由人工选择保留记录,删除其它重复记录;b)条件保留:设置条件规则和约束字段,比如按日期型或日期时间型字段保留离当前日期最近的记录;c)依质量保留:依据数据质量检查结果,保留数据质量问题最少的记录;d)顺序保留:按记录出现的顺序,保留第一条或最后一条记录。7.2.3.3 依重复度的记录排重 可根据记录的重复情况进行排重,包括但不限于:a)完全重复:记录完全一致,选择保留其中一条记录;b)不完全重复:设置对比字段的值,保留一条和对比字段的值完全一致的记录。7.2.4 冲突

19、值修正 7.2.4.1 字段冲突处理 7.2.4.1.1 字段推导方法 对于不同字段之间存在冲突时,对具有强约束关系的字段,可以某字段作为标准字段,对其余字段进行修改。如身份证件号码、年龄及性别字段具有强约束关系,以身份证件号码作为标准字段,与年龄或性别字段冲突时,通过身份证件号码推导出正确的值并修改错误值。7.2.4.1.2 权威来源方法 对于同一字段来自多个部门时,以权威部门来源为准。如“身份证件号码”以公安部门提供的数据为准。7.2.4.1.3 大多数方法 对于同一字段存在多条不同记录时,以内容相同的数量最多的记录为准。如一个人的“身高”有三条记录为1.7 m,一条记录为1 m,取1.7

20、 m为其身高信息。7.2.4.1.4 新鲜度方法 对于同一字段存在不同的时间属性时,以时间最近的数据为准。如一个人的“学位”两年前为“硕士”,两年后为“博士”,取“博士”为其学位信息。7.2.4.2 记录冲突处理 DB37/T 4646.22023 6 有关联关系的记录之间存在冲突时,可通过统计或逻辑分析等方式进行处理。如合计项的值与列表项总和不一致,则通过统计方式人工分析处理并修改错误值。如人员列表中,不同的人对应相同的驾驶证件号码,则通过逻辑分析方式人工分析处理并修改错误值。8 数据转换 应对通过数据质量检查和问题数据修正的归集数据进行转换,将其转换为符合数据标准的标准数据,数据转换主要包

21、括数据格式转换和数据代码转换,数据转换规则示例见附录E。如数据转换失败,应查找原因,并在解决后重新进行数据转换;如数据转换成功,应对完成转换的数据进行核验,确认数据是否符合标准。9 数据安全 应记录数据探查时间、数据质量检查时间、数据质量检查内容、数据质量检查结果、数据转换结9.1 果等形成日志保存,并为查询、导出和删除等日志操作设置权限。应对待修正数据和待转换数据进行备份,并确保备份数据的可用性。9.2 应符合 GB/T 222392019 中等级保护三级的要求,个人信息安全应符合 GB/T 352732020 要求。9.3 DB37/T 4646.22023 7 A A 附录A (规范性)

22、数据清洗比对流程 图A.1规定了数据清洗比对流程。开始数据探查检查规则制定质量检查实施问题数据修正数据归集数据转换结束不存在问题存在问题 图A.1 数据清洗比对流程 DB37/T 4646.22023 8 B B 附录B (资料性)数据探查清单示例 数据探查清单包括数据表探查清单和数据字段探查清单。数据表探查清单示例见表B.1。数据字段探查清单示例见表B.2。表B.1 数据表探查清单示例 所属部门 表名 表注释 最后更新时间 数据量 是否更新 更新周期 XXX部门 XXX_XX_X XXX信息 202X-XX-XX 10000 是 每月 XXX局 XX_XXXX XXXXXX变更信息 202X

23、-XX-XX 10000 是 实时 表B.2 数据字段探查清单示例 表名 字段名 字段注释 数据类型 空值数量 空值率 是否允许空值 是否主键 是否有重复数据 是否使用字典 值域 样例数据 XXXX_XX Id 主键ID;自增 数值 0 0.00%否 是 否 否 100 XXXX_XX is_deleted 是否删除:0 未删除;1 删除 数值 0 0.00%否 否 是 是 0、1 0 DB37/T 4646.22023 9 C C 附录C (资料性)数据质量检查规则示例 数据质量检查规则示例见表C.1。表C.1 数据质量检查规则示例 规则名称 规则说明 字段完整检查规则 检查字段数量与数据探

24、查清单相比是否一致 记录完整检查规则 检查记录数量与数据探查清单相比是否一致 空缺值检查规则 检查值的填充是否完整,是否存在空缺值 逻辑检查规则 检查数据是否存在逻辑或常识性错误,如幼儿园入学年龄为18岁 格式检查规则 检查数据是否存在格式错误,如身份证件号码长度大于18位 值域检查规则 检查数据的值是否在允许取值的范围之内 字段重复检查规则 检查字段是否存在重复 记录重复检查规则 检查记录是否存在重复 数据冲突检查规则 检查分布在不同表中的相同数据是否一致 数据更新检查规则 检查数据是否已按照要求进行更新 DB37/T 4646.22023 10 D D 附录D (资料性)数据质量检查报告示

25、例 数据质量检查报告示例见表D.1。表D.1 数据质量检查报告示例 数据质量检查报告 报告日期:202X年XX月XX日 总体情况:截止到 202X 年 XX 月 XX 日 XX:XX,检查总表数 XX 个,实施质检规则 XX 个,检查记录数 XXXXX 条。发现问题数据XXXX 条。问题主要集中在 XXXX 规则上。数据时效性校验通过率为 XX.XXXX%,更新情况较差。表数据量及问题率统计 序号 来源部门名称 数据资源名称 表名 质检数据量(条)问题数据量(条)问题率(%)1 XXX部门 XXXX信息 xx_xx_xxxx 9999 8547 85.479%2 XXXX部门 XXX信息 xx

26、x_xxxxxx 99 0 0.000%数据质量问题 序号 表名 字段名 质检规则 问题数据量(条)合格率(%)检查时间 1 xxx_xxxxxx lianxidianhua 固定电话号码或手机号码格式校验 2713 97.683%202X年XX月XX日 2 xxx_xxxxxx chuanzhen 传真号码格式校验 26291 77.555%202X年XX月XX日 DB37/T 4646.22023 11 E E 附录E (资料性)数据转换规则示例 数据转换规则示例见表E.1。表E.1 数据转换规则示例 规则类型 规则名称 规则说明 格式转换规则 日期型统一格式转换 将各类日期型数据统一转换

27、为符合GB/T 74082005的日期型数据,如YYYYMMDD 时间型统一格式转换 将各类时间型数据统一转换为符合GB/T 74082005的时间型数据,如hhmmss 日期时间型统一格式转换 将各类日期时间型数据统一转换为符合GB/T 74082005的日期时间型数据,如YYYYMMDDThhmmss 代码转换规则 性别数据统一代码转换 将人员性别代码按照GB/T 2261.12003中“性别代码”进行统一转换 民族数据统一代码转换 将人员的民族代码按照GB/T 33041991中“民族数字代码”进行统一转换 婚姻状况数据统一代码转换 将人员的婚姻状态代码按照GB/T 2261.22003

28、中“婚姻状况代码”进行统一转换 机构性质数据统一代码转换 将法人单位的机构性质代码按照GB/T 361042018中“登记业务类型”进行统一转换 DB37/T 4646.22023 12 参考文献 1 GB/T 2261.22003 个人基本信息分类与代码 第2部分:婚姻状况代码 2 GB/T 33041991 中国各民族名称的罗马字母拼写法和代码 3 GB/T 74082005 数据元和交换格式 信息交换 日期和时间表示法 4 GB/T 352952017 信息技术 大数据 术语 5 GB/T 361042018 法人和其他组织统一社会信用代码基础数据元 6 GB/T 38664.22020 信息技术 大数据 政务数据开放共享 第2部分:基本要求 7 DB37/T 3523.22019 公共数据开放 第2部分:数据脱敏指南 8 DB37/T 42202020 政务信息资源 数据标准 基本要求

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1