1、 ICS 01.040.03 CCS A 12 DB52 贵州省地方标准 DB52/T 1541.62021 政务数据平台 第 6 部分:面向全网搜索 应用的数据处理规范 Government data platformPart 6:Data prepro cessing specifications for searching application based on the platform 2021 - 05 - 17 发布 2021 - 09 - 01 实施 贵州省市场监督管理局 发布 DB52/T 1541.62021 I 目 次 前言 . . II 1 范围 . . 1 2 规范性
2、引 用文件 . . 1 3 术语和定义 . . 1 4 缩略语 . . 5 5 总体框架 . . 5 6 数据接入 . . 6 7 数据处理 . . 7 8 搜索应用 . . 8 9 数据安全 . . 8 DB52/T 1541.62021 II 前 言 本文件按照GB/T 1.1-2020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起 草。 本文件是DB52/T 1541政务数据平台的第6部 分。DB52/T 1541已经发布了以下部分: 第2部分:数据归集规范; 第3部分:数据存储规范; 第4部分:接口规范; 第6部分:面向全网搜索 应用的数据处理规范。 请注意本文件的某些内
3、容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件由贵州省大数据发展管理局提出并归口。 本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云 上贵州大数据产业发展有限公司、同方知网数字出版技术股份有限公司。 本文件主要起草人:张洋、常丹丹、张榉尹、曾宪平、关艳梅、郑如顺、杨建雄、罗森、秦晓东、 杨建国、潘伟杰、邵建平、黄明峰、刘军、田野、段飞虎、宿睿智、刘彦嘉、唐昶、姚茂峰、陆莹、 孙瑾。 DB52/T 1541.62021 1 政务数据平台 第 6 部分:面向全网搜索 应用的数据处理规范 1 范围 本文件规定了面向政务数据平台全网搜索应用的数
4、据处理的总体框架、数据接入、数据处理、搜索 应用和数据安全相关要求。 本文件适用于政务数据平台全网搜索应用的数据处理活动。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T 2260 中华人民共和国行政区划代码 GB/T 2261.1 个人基本信息分类与代码 第1部分:人的性别代码 GB/T 7408 数据元和交换格式 信息交换 日期和时间表示法 GB 11643 公民身份号码 GB 32100 法人和其他组织统一社会信用代码
5、编码规则 GB/T 37973-2019 信息安全技术 大数据安全管理指南 DB52/T 1540.2 政务数据 第2部分:元数据管理规范 DB52/T 1541.3 政务数据平台 第3部分:数据存储规范 3 术语和定义 下列术语和定义适用于本文件。 3.1 政务数据平台 government d ata platform 依托政务云计算平台搭建,承载政务数据并支撑数据统筹存储、统筹治理、统筹应用和统筹安全的 基础信息技术平台。 来源:DB52/T 1541 .3-2020,3.1 3.2 全网搜索 data searc hing applications based on governmen
6、t data platform 基于政务数据平台围绕特定应用场景进行数据处理,通过搜索引擎和机器学习技术实现数据的组织 呈现、融合重构、关联分析和衍生应用。 DB52/T 1541.62021 2 3.3 数据处理 data pre processing 对拟进入搜索数据库的数据进行前期处理加工以达到特定的规范性要求,支撑后续搜索应用的实 现。 3.4 数据元 data e lement 用一组属性描述其定义、标识、表示和允许值的数据单元。数据元由三部分组成:对象、特性、表 示。 来源:GB/T 18391.1-2009,3.3.8 3.5 元数据 metadata 关于数据或数据元素的数据(
7、可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和 数据易变性的数据。 来源:GB/T 35295- 2017,2.2.7 3.6 统计指标 statistica l indicators 说明总体数量特征的概念及其数值的综合。 3.7 基础数据库 basic infor mation database 国家信息化和电子政务建设基础数据资源库,包括人口基础数据库、法人数据库、宏观经济数据库、 自然资源与空间地理数据库、电子证照库等。 3.8 主题数据库 thematic info rmation database 针对特定应用主题将存在内在逻辑关联关系的各类数据有序汇聚形成的指定数据
8、库。 3.9 搜索数据库 searching d ata database 基于政务数据平台数据,结合特定搜索应用业务需求进行管理规划并有序存放经数据前置处理后的 有效数据的专题数据库。 DB52/T 1541.62021 3 3.10 结构化数据 structured data 一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用 关系模型予以有效描述。 来源:GB/T 35295- 2017,2.2.13 3.11 非结构化数据 unstruct ured data 不具有预定模型或未以预定方式组织的数据。 来源:GB/T 35295- 2017,2.1.
9、25 3.12 半结构化数据 Semi struc tured data 具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。 示例:XML 文档内容,每项都被一对标记封起来,如,表面上看是结构化数据,但 之间的数据却是千变万化,这是典型的半结构化数据。 来源:DA/T 82-2019,2.8 3.13 数据类型 data type 规定数据结构的数据对象的经定义的集合和一组许可的运算,在这些运算中任何一个执行时,其中 数据对象都当作运算数。 示例:整数型的结构非常简单,整数型的值是在某一规定范围内的整数的一个成员的表示,许可的运算包括对这些 整数的常见算术运算。 来源
10、:GB/T 5271.1 7-2010,17.5.8 3.14 全量更新 full update 使用新的数据对历史数据进行完全覆盖。 来源:DB52/T 1541 .22020,3.14 3.15 增量更新 incremen tal update 将两次更新间隔发生变更的数据同步到存储区域。 来源:DB52/T 1541 .22020,3.15 DB52/T 1541.62021 4 3.16 数据脱敏 data mask 从原始环境向目标环境进行敏感数据交换的过程中,通过一定方法消除原始环境数据中的敏感信 息,并保留目标环境业务所需的数据特征或内容的数据处理过程。 来源:DB52/T 11
11、262016,2.1 3.17 数据加密 data e ncryption 对数据进行密码变换以产生密文的过程。一般包含一个变换集合,该变换使用一套算法和一套输入 参量。输入参量通常被称为密钥。 来源:GB/T 25069 2010,2.2.2.60 3.18 数据完整性 data integrity 数据没有遭受以未授权方式所作的更改或破坏的特性。 来源:GB/T 250692010,2.1.36 3.19 数据模型 data model 按照信息系统中的形式描述和所应用的数据库管理系统的要求构造的数据库中数据的一种原型。 来源:GB/T 5271.1 7-2010,17.1.7 3.20
12、主键 primary key 一种用于标识一个记录的键。 来源:GB/T 5271.1 7-2010,17.3.11 3.21 外键 foreign key 在某一关系中,与另一类关系中的主键对应的一个或一组属性。 来源:GB/T 5271.1 7-2010,17.4.15 3.22 关系 relation 具有相同属性的各实体值的集合以及这些属性。 注:在关系数据库中,一个关系能通过一个表来表示,表中各行对应于各实体值,各列对应于各属性。 来源:GB/T 5271.1 7-2010,17.4.1 DB52/T 1541.62021 5 3.23 数据描述 data des cription
13、对某一数据元素与其中出现该元素的名称和字的数据结构的形式化描述。 来源:GB T 5271.1 7-2010,17.6.3 3.24 总量指标 total quan tity index 用来反映特定对象或现象在一定条件下总规模、总水平或工作总量的统计指标。 3.25 相对指标 relative indices;relative indicators 用两个关联指标的比值来反映特定对象或现象的数量特征、数量关系的综合指标。 3.26 平均指标 averag e Index 同一时间的同类型主题 对象或现象 的一般水平,或是不同时间的同类型主题 对象或现象的一般水 平。 4 缩略语 下列缩略语适
14、用于本文件。 OSS:对象存储服务(Object Sto rage Service) ETL:加载、抽取、转换(Extract-Tr ansform-Load) API:应用程序编程接口(Applica tion Programming Interface) URL:统一资源定位符(Uniform R esource Locator) 5 总体框架 政务数据平台的全网搜索应用的整体业务逻辑架构图见图1。其组成部分如下: a) 数据接入:将来源于政务数据平台各存储模块中各种类型的数据进行规范接入管理,并根据业 务需求从不同存储模块中接入数据元进行对应数据处理。存储模块包括数据采集区、基础库和 主
15、题库; b) 数据处理:对接入的数据元按照数据治理规范,结合业务场景与搜索目标进行数据元梳理、数 据清洗融合和数据模型设计,并将结果存储到搜索数据库中。处理内容包括数据描述、数据指 标、数据标签和关联关系等; c) 搜索应用:通过元数据管理系统对搜索数据库中表结构与关联关系进行抽取,结合搜索应用业 务需求对元数据进行管理分类、知识构建,支撑搜索引擎和领导驾驶舱建设; d) 数据安全:包括数据机密性、完整性、数据备份。采用数据脱敏、数据加密、制定备份机制等 数据处理方法进行数据传输与存储,确保数据安全。 DB52/T 1541.62021 6 图1 全网搜索应用的整体业务逻辑架构图 6 数据接入
16、 6.1 存储要求 6.1.1 数据分类存储按 DB52/T 1541.3 的规定进行。 6.1.2 数据接入前应根据待处理数据的结构化程度将数据存储至以下区域: a) 结构化数据应存储到统一数据采集区; b) 非结构化数据应存储于云计算的开放存储区 OSS,并建立对应数据描述表以支撑搜索应用; c) 半结构化数据按将文件基本属性、存储路径等描述信息以结构化数据文件入库存储至统一数据 采集区。 6.2 接入规则 6.2.1 结构化、非结构化数据,通过 ETL 工具进行分类接入; 6.2.2 半结构化数据化解为结构化数据通过 ETL 工具进行接入; 6.2.3 接入形式包括二维库表类型、文本类型
17、、URL 连接地址、API 接口等。 DB52/T 1541.62021 7 6.3 更新机制 6.3.1 全量更新 将数据源中的表或视图的数据全部从数据库中抽取出来,通过ETL工具迁移到搜索数据库中。 6.3.2 增量更新 增量更新是指在进行更新操作时,只更新需要改变的地方,不需要更新或者已经更新过的地方则不 会重复更新,增量更新与全量更新相对。 6.3.3 更新频率 数据更新频率包括以下方式: a) 数据更新频率应达到秒级响应,实现实时更新: b) 在设定时间的误差范围内,准实时批量接入; c) 数据按天、周、月进行定时调度,实现同步更新。 7 数据处理 7.1 数据描述规范化处理 7.1
18、.1 处理方法 数据描述的规范化处理方法包括但不限于: a) 数据格式处理:对错误的数据格式进行治理、修改; b) 关键信息缺失补全:对需要搜索的关键信息出现缺失的部分进行补全; c) 明显逻辑错误修正:核查数据元间业务逻辑关系,对明显错误逻辑进行修正。如对数据上下级、 归属关系进行修正; d) 数据类型错误修正:根据搜索目标对数据类型进行判断,对不满足数据类型的错误进行修正。 7.1.2 通用型数据处理要求 时间、区划地点、对象等通用数据处理,应满足以下要求: a) 行政区划代码应符合 GB/T 2260 规定; b) 性别代码应符合 GB/T 2261.1 规定; c) 日期和时间应符合
19、GB/T 7408 规定; d) 公民身份号码应符合 GB 11643 规定; e) 法人和其他组织统一社会信用代码应符合 GB 32100 规定。 7.1.3 非通用型数据处理要求 非通用的描述类数据处理应满足以下要求: a) 可计算型数据元的计算类型,应满足当前系统可连接数据库类型的可计算数据类型的要求,计 算单位根据业务进行描述; b) 可分组维度的数据字段应按其特征进行分组; c) 可比较数据元应按照不同维度、不同规则进行比较; d) 主体数据元应对主体的核心内容进行描述。 DB52/T 1541.62021 8 7.2 数据指标处理 对数据元中涉及数值与统计数据的指标数据,应按同一指
20、标内部相对差距不变、不同指标间的相对 差距不确定、标准化后极大值相等原则采用数据同趋化和无量纲化等方法进行处理。按照其反映的内容 或其数值表现形式分为总量指标、相对指标和平均指标三种。 指标统计处理应包括以下内容: a) 确定指标的含义和范围; b) 指标指向的对象或现象应具有同类性; c) 有统一的计量单位; d) 两个对比指标要有可比性。 7.3 数据标签处理 7.3.1 对具有搜索价值的数据元应根据业务信息及搜索目标进行标签定义,对数据属性进行归类。 7.3.2 数据标签可分为以下两类: a) 基于统计类的标签:从政务平台基础数据中直接统计得出,为基础的标签类型,如性别、城市、 月均消费
21、金额等字段构成用户画像的基础; b) 基于规则类的标签:基于行为及确定的规则产生,开发标签中的标签规则由涉及的双方共同协 商确定,如距今 90 天内交易次数3 是“交易活跃”标签的定义和口径。 7.4 关联关系处理 7.4.1 同一个业务源不同数据表之间,需要有对应的主外键关系,表与表之间依据主外键进行关联。 7.4.2 针对不同业务与业务之间,需要设立统一规范的业务主键,利用业务主键进行关联。 8 搜索应用 8.1 经数据处理后的数据应按描述数据、业务数据、模型和标签等类型数据进行分类存放进搜索数据 库。 8.2 按 DB52/T 1540.2(政务数据 元数据管理规范)的规定对搜索数据库数
22、据的元数据进行管理。 8.3 计算机对数据标签、关联关系信息、数据指标进行学习理解并最终记忆,形成知识构建。 8.4 经知识构建形成的可理解和处理的数据,与搜索内容进行语义对齐,理解搜索意图,最终查找出 结果。 8.5 对于非结构化数据,搜索实现文本语言数据之间的比较,当核心内容相似性达到一定程度时,判 断为找到用户需求,并反馈结果。 8.6 全网搜索主要应用方向包括数据查询、数据画像、数据调度、决策支撑和智慧应用。 9 数据安全 9.1 数据分类分级应遵循 GB/T 37973-2019 中第 7 章的规定。 9.2 数据处理的安全要求应符合 GB/T 37973-2019 中 8.4 的要求。 9.3 数据处理操作人员的安全管理,应符合以下要求: a) 专岗要求:应对用户按类赋权。用户账号应使用组、角色等组合方式进行权限分配,可进行授 权管理和统计; b) 专人要求:应保障用户身份唯一性。每个用户账号的设置,均对应特定的使用人。 DB52/T 1541.62021 9 9.4 数据使用需求应根据数据等级进行审核,不同等级的数据应由不同等级权限的角色完成审核。 _ DB52/T 1541.6-2021