ImageVerifierCode 换一换
格式:PDF , 页数:14 ,大小:1.07MB ,
资源ID:1551735      下载积分:5000 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
如需开发票,请勿充值!快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
注意:如需开发票,请勿充值!
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【http://www.mydoc123.com/d-1551735.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(DB3209 T 1258-2023 公共数据平台 数据归集规范.pdf)为本站会员(lawfemale396)主动上传,麦多课文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知麦多课文库(发送邮件至master@mydoc123.com或直接QQ联系客服),我们立即给予删除!

DB3209 T 1258-2023 公共数据平台 数据归集规范.pdf

1、ICS 35.020 CCS L 70 盐城市地方标准 公共数据平台 数据归集规范 2023-12-15 发布 2024-03-15 实施 盐城市市场监督管理局 发布 DB3209/T 12582023 DB3209DB3209/T 1258-2023 I 前 言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。本文件由盐城市工业和信息化局提出并归口。本文件起草单位:盐城市工业和信息化局、盐城市大数据管理中心。本文件主要起草人:朱照伟、袁爱娣、戴祥、施晓波、李德志、齐文辉、张亮亮、薛步高、韦应虎、田永艳、董玉伟、李兴儒。DB3209/T 125

2、8-2023-1-公共数据平台 数据归集规范 1 范围 本文件界定了公共数据平台数据归集的术语和定义,规定了归集流程、数据归集要求、数据更新要求及数据归集安全。本文件适用于指导盐城市各级公共管理和服务机构归集数据至盐城市公共数据平台。2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 22239 信息安全技术 网络安全等级保护基本要求GB/T 35273 信息安全技术 个人信息安全规范GB/T 35295 信息技术 大数据 术语GB/

3、T 37973 信息安全技术 大数据安全管理指南3 术语和定义 GB/T 35295-2017 界定的以及下列术语和定义适用于本文件。3.1 数据归集 data ingestion 指将来源于不同数据源的数据按照一定的规则进行采集、清洗加工、整合和更新,以支持公共数据平台的数据分析和应用。3.2 公共数据 common data 指各级行政机关、法律法规授权的具有管理公共事务职能的组织、公共企事业单位为履行法定职责,提供公共服务收集、产生的各类数据资源,包括文件、资料、图表、图像、音频、视频、电子证照、电子档案等。3.3 结构化数据 structured data 一种数据表示形式,按此种形式

4、,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。来源:GB/T 35295-2017,2.2.13 3.4 结构化文件 structured file 按照特定结构或格式组织的文件,并便于机器解析和读取。结构化文件通常用于存储和组织大量的数据,如数据库文件、CSV 文件、JSON 文件等。DB3209/T 1258-2023-2-3.5 非结构化文件 unstructured file 不具有预定义模型或未以预定义方式组织的文件,通常以二进制格式或自由文本形式存储,没有固定的结构和格式,如办公文档、图片、HTML、各类报表、图像和音频/视频等。4 归集流程 4.

5、1 明确归集范围 按照“按需归集、应归尽归”的原则,将相关部门及机构所有可归集的公共数据持续归集至公共数据平台。4.2 明确归集方式 结合归集数据的范围、数据传输要求等,确定数据的归集方式。归集方式主要包括库表、文件、服务接口三种,其中库表、文件方式适用于对数据传输速度和实时性无特殊要求的情况,服务接口方式适用于对数据传输速度和实时性有较高要求的情况。4.3 开展数据归集 应将数据库表结构发送至公共数据主管部门,并根据数据归集方式和数据实际情况,做好数据归集前准备工作并开展数据归集:a)将原始数据不进行处理地采集存放在公共数据平台的贴源层中;b)对贴源层中的数据进行清洗加工使其满足公共数据平台

6、使用的质量要求,清洗加工后的数据存放在公共数据平台的公共层中;c)对公共层中的数据进行个性化面向应用、业务的整合,最终数据存放在公共数据平台的主题层。4.4 归集结果确认 数据归集结果确认应包含:a)数据清洗加工:对采集到的数据进行清洗加工,去除无效和冗余数据,对缺失数据进行填补,确保数据的准确性和完整性;b)数据整合:将清洗加工后的数据进行整合,将不同来源的数据进行融合和映射,形成统一的数据格式和标准;c)数据更新:定期对数据进行更新,通过数据采集、清洗加工、整合等环节,保障数据的实时性和准确性。5 数据归集要求 5.1 总体要求 在数据归集过程中,明确数据的归集要求,从数据完整性、及时性、

7、安全性等方面确保数据归集的质量和高效。a)数据完整性:确保所归集的数据准确、完整且没有重复。在数据归集过程中,需要对数据源进行充分的调研和验证,确保数据被完整地收集并没有遗漏,同时,需要进行数据清洗和数据校验,排除无效数据和错误数据,保持数据的准确性和一致性;DB3209/T 1258-2023-3-b)数据安全性:采取相关安全防护措施,确保归集的数据不会受到未经授权的访问、篡改或泄露的风险。采用严格的身份认证、权限控制和脱敏加密技术,保障数据的安全;c)数据及时性:建立高效的数据归集机制,需定期检查数据源的更新频率,设置合理的数据归集周期,确保数据能够及时归集和更新,确保归集的数据始终具备实

8、时性和可信度,满足各级部门和公众对数据的需求。5.2 库表归集 5.2.1 前置库 在前置机中建设前置库,用于临时存储业务数据表、对账数据表等,可根据业务需要创建多个前置库。前置库应支持国产数据库,字符编码应支持包括但不限于:UTF-8、GB2312、UTF-16。5.2.2 业务数据表 5.2.2.1 业务数据表存储待归集的业务数据,包含记录 ID、批次号、业务操作标识、更新时间及业务字段,字段说明如下:a)记录 ID:业务数据的唯一记录标识,使用 UUID 主键策略;b)批次号:业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数据日期指数据更新的日期,格式为 YYY

9、YMMDD:数据序号为 8 位数字,每日从 00000001 顺序递增;c)业务操作标识:用于标识业务数据的操作属性,数据新增为“I”,数据修改为“U”,数据删除为“D”;d)更新时间:业务数据写入业务数据表的时间,格式为 YYYY-MM-DD hh:mm:ss。示例:2023-10-01 08:10:56。5.2.2.2 业务数据表字段名称和数据格式见表 A.1。5.2.3 对账数据表 5.2.3.1 对账数据表存储数据的对账情况,包含对账记录唯一标识、表名、批次号、批次条数、批次时间、批次状态字段,字段说明如下:a)对账记录唯一标识:对账表主键,使用 UUID 主键策略;b)表名:该批次更

10、新数据所在业务数据表的名称;c)批次号:与业务数据表中批次号一致;d)批次条数:该批次更新的数据条数,应与业务数据表中该批次数据实际更新条数一致;e)批次时间:对账数据写入对账表的时间,采用数据库时间函数的值,格式为 YYYY-MM-DD hh:mm:ss;示例:2023-10-01 08:10:56。f)批次状态:本批次数据归集状态,0 为初始默认值,1 为完成归集,-1 为对账数据表批次数量与业务数据表实际数量不一致。5.2.3.2 对账数据表字段名称和数据格式见表 C.1。5.3 文件归集 DB3209/T 1258-2023-4-5.3.1 文件系统 在前置机中建设文件系统,用于临时存

11、储待归集的文件。文件系统可采用 FTP、SFTP 等。5.3.2 文件要求 5.3.2.1 命名约束 文件夹的命名格式为:/目录名称/业务名称/年/月/日/。文件夹、文件的命名应由阿拉伯数字(09)、英文字符(az、AZ)、下划线“_”组成。示例:文件夹命名:/公司资料/销售数据/2023/12/05/,文件命名:daily_sales_report_20231205.xlsx。5.3.2.2 文件大小 需设置文件大小阈值,文件超出阈值应拆分成多个小文件。5.3.2.3 文件类型 文件类型包括结构化文件和非结构化文件,结构化文件格式包括 CSV、TXT、XLS、XLSX 等,非结构化文件格式包

12、括 PDF、DOC、DOCX、WPS、ZIP 以及图片、音频、视频等资源的常用格式。CSV、XLS、XLSX的首行数据应为列名,字符编码应支持包括但不限于:UTF-8、UTF-16、GBK,且不应存在特殊字符,不应存在行或列的合并,不应存在相同列名,不应有空白行等。5.3.3 文件信息表 5.3.3.1 文件信息表用来存储待归集的文件信息,包含记录 ID、批次号、文件名、文件路径、文件大小、文件格式、业务操作标识、文件完整性校验、文件拆分标志、拆分数量、更新时间,字段说明如下:a)记录 ID:业务数据主键,是业务数据的唯一记录标识,使用 UUID 主键策略;b)批次号:业务数据按批次更新时生成

13、,是数据日期和数据序号的组合,应保证唯一性。其中数据日期指数据更新的日期,格式为 YYYYMMDD,数据序号为 8 位数字,每日从 00000001 顺序递增;示例:2023100100000001,表示 2023 年 10 月 1 日第 1 批次数据。c)文件名:该文件的存储名称;d)文件路径:该文件的存储路径;e)文件大小:该文件占用的存储空间,单位为 KB;f)文件格式:文件的格式;g)业务操作标识:用于标识业务数据的操作属性,数据新增为“I”,数据修改为“U”,数据删除为“D”;h)文件完整性校验:该文件对账使用的完整性校验码;i)文件拆分标识:用于标识该文件是否进行了拆分,1 为已拆

14、分,0 为未拆分;j)拆分数量:该文件被拆分的数量;k)更新时间:业务数据写入业务数据表的时间,格式为 YYYY-MM-DD hh:mm:ss。示例:2023-10-01 08:10:56。5.3.3.2 文件信息表字段名称和数据格式见表 B.1。5.3.4 文件拆分信息表 DB3209/T 1258-2023-5-5.3.4.1 文件拆分信息表用来存储文件拆分信息,包含记录 ID、文件信息表记录 ID、文件名、文件路径、文件大小、文件完整性校验、更新时间,字段描述如下:a)记录 ID:业务数据的唯一记录标识,使用 UUID 主键策略;b)文件信息表记录 ID:拆分文件对应文件信息表的记录 I

15、D;c)文件名:拆分文件的存储名称;d)文件路径:拆分文件的存储路径;e)文件大小:拆分文件占用的存储空间,单位为 KB;f)文件完整性校验:该文件对账使用的完整性校验码;g)更新时间:业务数据写入业务数据表的时间,格式为 YYYY-MM-DD hh:mm:ss。示例:2023-10-01 08:10:56。5.3.4.2 文件拆分信息表字段名称和数据格式见表 B.1。5.3.5 对账数据表 5.3.5.1 文件的对账数据表包括对账记录唯一标识、文件路径、文件类型、批次号、批次时间、批次状态,其中结构化文件对账数据表还应包括批次条数等字段,文件类型字段以“SD”标识,非结构化文件对账数据表还应

16、包括批次个数、批次大小等字段,文件类型以“UD”标识,字段描述如下:a)对账记录唯一标识:对账表主键,使用 UUID 主键策略;b)文件路径:拆分文件的存储路径;c)文件类型:区分结构化文件、非结构化文件;d)批次号:与文件信息表中批次号一致;e)批次时间:对账数据写入对账表的时间,采用数据库时间函数的值,格式为 YYYY-MM-DD hh:mm:ss;示例:2023-10-01 08:10:56。f)批次条数:该批次更新的数据条数,应与该批次结构化文件中数据实际更新条数一致;g)批次个数:该批次的文件的个数,应与该批次非结构化文件的实际个数相符;h)批次大小:该批次的文件占用的存储空间,应与

17、该批次文件实际大小相符,单位为 KB;i)批次状态:本批次数据归集状态,0 为初始默认值,1 为完成归集,-1 为对账表批次条数或文件个数与实际不一致。5.3.5.2 文件对账数据表字段名称和数据格式见表 C.2。5.4 接口归集 5.4.1 基本要求 公共数据主管部门根据提供的库表结构开发服务接口,挂载到相关公共数据资源目录下,通过公共数据平台发布。各机构依据服务接口要求,开发服务接口调用程序,调用服务接口推送本机构数据至公共数据平台,可采用压缩、加密等技术实现数据高速传输、保障数据推送和调用的安全。5.4.2 服务接口调用形式 服务接口调用形式为::/:/,其中:a)protocol 支持

18、 HTTPS、HTTP;DB3209/T 1258-2023-6-b)hostname 指 IP 设备的 IP 地址;c)port 指端口号;d)URI 指资源 URI,由接口唯一标识、数据传输流水序列号、分布式存储标识、资源唯一标识符组成。5.4.3 服务接口资源描述 服务接口资源采用 RESTful 的数据标准协议格式,其中编码方式为 UTF-8,每个接口资源的资源标识唯一,接口返回的消息体要包含接口的自描述信息、消息的自描述信息。接口的返回数据格式示例见附录 D.1。5.4.4 服务接口功能 服务接口主要分为增删改类数据服务接口和只增类数据服务接口,增删改类数据服务接口的功能包含增加信息

19、、增加压缩信息、删除信息、删除压缩信息、修改信息、修改压缩信息,只增类数据服务接口的功能包含只增信息、只增压缩信息。服务接口内容描述见附录 D 表 D.1表 D.4。6 数据更新要求 6.1 数据更新方法 对存在更新标识的数据应支持增量更新;对不存在更新标识的数据应支持全量更新。6.2 数据更新策略 确定数据更新的策略和周期,实时性和频率需根据实际需求确定。根据公共数据平台的使用情况和业务需求,制定数据更新的频率,可以是实时更新、每日更新、每周更新等。此外,也要考虑相关数据源的更新频率和数据变动性,确保及时获取最新数据。7 数据归集安全 数据归集安全应符合 GB/T 22239 中等级保护三级

20、的要求,个人信息安全应符合 GB/T 35273 的要求,其他安全要求应符合 GB/T 37973 的要求。归集功能应满足数据源鉴别安全技术要求,数据提供方在归集数据过程中应采用身份鉴别、数据源认证等安全机制保障公共数据来源的真实性。DB3209/T 1258-2023-7-附录 A(资料性)库表归集业务数据表字段名称和数据格式 业务数据表字段名称和数据格式见表 A.1。表 A.1 业务数据表字段名称和数据格式 字段名称 字段标识符 字段类型 字段长度 主键标识 非空 记录 ID ID VARCHAR 64 主键 是 批次号 BATCH VARCHAR 20-是 业务操作标识 OPERATIO

21、N VARCHAR 1-是 更新时间 TIME DATETIME 8-是 DB3209/T 1258-2023-8-附录 B(资料性)文件归集信息表字段名称和数据格式 文件信息表、文件拆分信息表字段名称和数据格式见表B.1。表 B.1 文件信息表、文件拆分信息表字段名称和数据格式 字段名称 字段标识符 字段类型 字段长度 主键标识 非空 记录 ID UD_ID VARCHAR 64 主键 是 批次号 UD_BATCH VARCHAR 20-是 文件名 UD_FILE_NAME VARCHAR 64-是 文件路径 UD_FILE_PATH VARCHAR 250-是 文件大小 UD_FILE_S

22、IZE LONG-是 文件格式 UD_FILE_TYPE VARCHAR 64-是 文件中文名 UD_FILE_CNAME VARCHAR 64-是 文件完整性校验 UD_FILE_CHECK VARCHAR 128-是 业务操作标识 UD_OPERATION VARCHAR 1-是 文件拆分标识 UD_IS_SPLIT_FILE INT 1-是 拆分数量 UD_SPLIT_COUNT INT-是 更新时间 UD_TIME DATETIME 8-是 文件信息表记录 ID UD_FILE_INFO_ID VARCHAR 64-是 DB3209/T XXX-2023 1 附录 C(资料性)对账数据

23、表字段名称和数据格式 C.1 库表归集对账数据表字段名称和数据格式 库表归集对账数据表字段名称和数据格式见表 C.1。表 C.1 库表归集对账数据表字段名称和数据格式字段名称 字段标识符 字段类型 字段长度 主键标识 非空 对账记录唯一标识 ID VARCHAR 64 主键 是 表名 TABLE_ NAME VARCHAR 100-是 批次号 DATA_BATCH VARCHAR 20-是 批次条数 DATA_COUNT INT-是 批次时间 DATA_DATE DATETIME 8-是 批次状态 DATA_STATE VARCHAR 1-是 C.2 文件归集对账数据表字段名称和数据格式 文件

24、归集对账数据表字段名称和数据格式见表 C.2。表 C.2 文件归集对账数据表字段名称和数据格式字段名称 字段标识符 字段类型 字段长度 主键标识 非空 对账记录唯一标识 ID VARCHAR 64 主键 是 文件路径 FILE_PATH VARCHAR 250-是 文件类型 UD_SD VARCHAR 2-是 批次号 FILE_BATCH VARCHAR 20-是 批次个数 FILE_COUNT INT-是 批次大小 FILE_SIZE LONG 批次时间 FILE_DATE DATETIME 8-是 批次状态 FILE_STATE VARCHAR 1-是 DB3209/T XXX-2023

25、2 附 录 D(资料性)服务接口数据示例及内容描述 D.1 json 格式消息体示例 以 test 内容传输格式为例,定义数据模板,数据模板标识为 test,json 消息体数据示例为:200 OKContent-Type:application/jsonContent-Length:xxx“url”:/“ineterfaceIdentifier”:“addoObjects”,“label”:test 信息新增接口,“items_url”:“/”,“status”:“success”,“data”:“id”:“XXX”,“name”:“XXX”,,“id”:“XXX”,“name”:“XXX”

26、,DB3209/T XXX-2023 3 D.2 增加服务信息接口描述 增加信息服务接口信息描述见表 D.1。表 D.1 增加服务信息接口描述 名称 内容 备注 接口地址 https:/:/ineterfaceIdentifier 为 addObjects或addObjects_GZIP 功能 批量增加信息 方法 post 消息体 ineterfaceIdentifier=addobjects 时消息体为 application/json,字符集编码为 UTF-8的标准 json 格式数据;ineterfaceIdentifier=addObjects_GZIP 时数据格式为 applicat

27、ion/json,字符集编码为 UTF-8 的压缩 json 格式数据;返回结果 200 OK Content-Type:application/json Content-Length:xxx “status”:“status”,“err”:“err”status=0,数据格式正确,err为空status不为 0,数据格式错误,err为错误描述 注释-需主键信息 D.3 删除服务信息接口描述 删除信息服务接口信息描述见表 D.2。表 D.2 删除服务信息接口描述 名称内容备注接口地址https:/:/ineterfaceIdentifier 为deleteObjects 或deleteObje

28、cts_GZIP功能批量删除信息方法post消息体ineterfaceIdentifier=deleteObjects 时消息体为 application/json,字符集编码为 UTF-8 的标准 json 格式数据;ineterfaceIdentifier=deleteObjects_GZIP 时数据格式为 application/json,字符集编码为UTF-8 的压缩 json 格式数据;返回结果200 OKContent-Type:application/jsonContent-Length:xxx“status”:“status”,“err”:“err”status=0,数据格式正

29、确,err为空status不为 0,数据格式错误,err为错误描述注释-需主键信息 DB3209/T XXX-2023 4 D.4 修改服务信息接口描述 修改信息服务接口信息描述见表 D.3。表 D.3 修改服务信息接口描述 名称内容备注接口地址https:/:/ineterfaceIdentifier 为updateObjects 或updateObjects_GZIP功能批量修改信息方法post消息体ineterfaceIdentifier=updateObjects 时消息体为 application/json,字符集编码为 UTF-8 的标准 json 格式数据;ineterfaceI

30、dentifier=updateObjects_GZIP 时数据格式为 application/json,字符集编码为UTF-8 的压缩 json 格式数据;返回结果200 OKContent-Type:application/jsonContent-Length:xxx“status”:“status”,“err”:“err”status=0,数据格式正确,err为空status不为 0,数据格式错误,err为错误描述注释-需主键信息 D.5 只增服务信息接口描述 只增信息服务接口信息描述见表 D.4。表 D.4 只增服务信息接口描述 名称内容备注接口地址https:/:/ineterfac

31、eIdentifier 为addEventInfos 或addEventInfos_GZIP功能批量归集只增信息方法post消息体ineterfaceIdentifier=addEventInfos 时消息体为 application/json,字符集编码为 UTF-8的标准 json 格式数据;ineterfaceIdentifier=addEventInfos_GZIP 时数据格式为 application/json,字符集编码为 UTF-8 的压缩 json 格式数据;返回结果200 OKContent-Type:application/jsonContent-Length:xxx“status”:“status”,“err”:“err”status=0,数据格式正确,err为空status不为 0,数据格式错误,err为错误描述注释-无

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1