DB23 T 3304—2022 大数据平台数据接入规范.pdf

上传人:postpastor181 文档编号:1534121 上传时间:2023-02-03 格式:PDF 页数:37 大小:1.78MB
下载 相关 举报
DB23 T 3304—2022 大数据平台数据接入规范.pdf_第1页
第1页 / 共37页
DB23 T 3304—2022 大数据平台数据接入规范.pdf_第2页
第2页 / 共37页
DB23 T 3304—2022 大数据平台数据接入规范.pdf_第3页
第3页 / 共37页
DB23 T 3304—2022 大数据平台数据接入规范.pdf_第4页
第4页 / 共37页
DB23 T 3304—2022 大数据平台数据接入规范.pdf_第5页
第5页 / 共37页
亲,该文档总共37页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、1 ICS 35.020 CCS L 70 DB23 黑龙江省地方标准 DB23/T 3304 2022 大数据平 台数据接 入规范 2022-07-07 发布 2022-08-06 实施 黑 龙 江 省 市 场 监 督 管 理 局 发布 I 目 次 前言.II 1 范围.1 2 规 范性 引用 文件.1 3 术 语和 定义.1 3.1 数据 接入.1 3.2 数据 采集.1 3.3 全量 采集 模式.1 3.4 增量 采集 模式.1 3.5 轮询 采集 模式.1 4 缩 略语.1 5 总 体框 架.2 5.1 总体 框架 描述.2 5.2 数据 源的 接入 和采 集 方式.3 6 接 入要

2、求.3 6.1 关系 数据 库抽 取.3 6.2 数据 库实 时复 制.4 6.3 网关 服务.5 6.4 消息 队列.6 6.5 文件 接收FTP 服务.8 6.6 文件 拉取FTP 服务.9 6.7 文件HTTP 服务.11 6.8 文件NFS 服务.13 附录A(资 料性)关系 数据库 抽取 接入 说明.16 附录B(资 料性)网关 服务接 入说 明.17 附录C(资 料性)消息 队列接 入说 明.18 附录D(资 料性)文件 接收 FTP 服 务接 入说 明.20 附录E(资 料性)文件 拉取 FTP 服务 接 入说 明.24 附录F(资 料性)文件HTTP 服 务接 入说 明.27

3、附录G(资 料性)文件NFS 服 务接 入说 明.31 II 前 言 本文件 依据GB/T 1.1-2020 标 准化 工作导 则 第1 部 分:标准 化文件 的结 构和 起草规 则 的规 定起草。请注意 本文 件的 某些 内容 可能涉 及专 利,本文 件的 发布机 构不 承担 识别 专利 的责任。本文件 由黑 龙江 省大 数据 产业协 会提 出。本文件 由黑 龙江 省工 业和 信息化 厅归 口。本文件 起草 单位:黑龙 江 省大数 据产 业协 会、哈 尔 滨财富 通科 技发 展有 限公 司、黑龙 江亿 林网 络股份有限 公司、黑 龙江 省网 络空间 研究 中心、黑 龙江 省标准 化研 究院、

4、黑 河市 特种设 备检 验研 究所、黑 龙江大数 据产 业发 展有 限公 司、黑龙 江省 信创 科技 有 限公司、黑龙 江交 投信 科 科技有 限责 任公 司、黑 龙 江交投千 方科 技有 限公 司、哈尔滨 智路 开发 有限 公司、黑 龙江 农投 大数 据公 司、黑龙江 省农 投云 产业 有限公司。本文件 主要 起草 人:李 璐 昆、孙传 友、杜 飞、孙 甲 子、张驰、王阳、陈要 武、杨大志、吕猛、王磊、唐丽、赵海 洋、李冰 冷、叶爽、王克 云、李森、周 全、何 晨龙、叶 爽、张新、关哲 刚、杨旭、王 晶。DB23/T 3304-2022 1 大 数据平 台数据接 入规范 1 范围 本文件 规

5、定 了大 数据 平台 数据接 入规 范的 术语 和定 义,缩 略语、总 体框 架和 接入要 求。本文件 适用 于黑 龙江 省内 大数据 平台 进行 数据 采集 功能研 发、数据 采集 工具 选 型及其 数据 接入 场 景提供规 范要 求。2 规范性 引用 文件 下列文 件中 的内 容通 过文 中的规 范性 引用 而构 成本 文件必 不可 少的 条 款。其 中,注日 期的 引用 文件,仅该日 期对 应的 版本 适用 于本文 件;不注 日期 的引 用文件,其 最新 版本(包 括所有 的修 改单)适 用 于 本文件。GB/T 29262 信 息技 术 面向服 务的 体系 结构(SOA)术语 GB/T

6、 35274 信 息安 全技 术 大 数据 服务 安全 能力 要求 GB/T 35295 信 息技 术 大数据 术语 GB/T 37973 信 息安 全技 术 大 数据 安全 管理 指南 3 术语和 定义 GB/T 29262、GB/T 35295 和GB/T 35274 界 定的 以及 下列术 语和 定义 适用 于本 文件。3.1 数据接 入 将数据 传输 进 入 数据 平台 所采用 的形 式。3.2 数据采 集 将数据 收集 进入 数据 平台 所采用 的形式。3.3 全量采 集模 式 是指一 次性 将关 系数 据库 中物理 表的 数据 抽取 到大 数据平 台。3.4 增量采 集模 式 是指

7、根 据设 置的 抽取 条件 筛选符 合条 件的 数据 抽取 到大数 据平 台。3.5 DB23/T 3304-2022 2 轮询采 集模 式 轮询采 集模 式是 增量 采集 模式的 一种。4 缩略语 下列缩 略语 适用 于本 文件。DTS:数 据传 输服 务(Data Transfer Service)。ETL:将 数据 从来 源端 经过 抽取、转换、加 载至 目的 端的过 程(Extract-Transform-Load)。FTP:文件 传输 协议(File Transfer Protocol)。HTTP:标准 的超 文件 传输 协 议(Hyper Text Transfer Protoco

8、l)。JDBC:java 数据 库连 接(Java DataBase Connectivity)。NFS:网络 文 件系 统(Network File System)。KQS:消息 集群 数据 接入(Kafka Queue Stream)。SHA:安全 哈希 算法(Secure Hash Algorithm)。5 总体框 架 5.1 总体框 架描 述 大数据 平台 支持 从关 系型 数据库、文件、数据 流等 来 源获取 数据,实现 各类 离 线数据 及实 时数 据的采集与 接入,包 括设 备采 集数据、企 业管 理业 务数 据、外 部数 据等。其 中离 线数据 主要 分为 关系 型 数 据库所

9、存 储的 结构 化数 据及 文件系 统所 存储 的非 结构 化文件 数据,实 时数 据主 要 是设备 采集 监控 及业 务 系统产生 的实 时流 数据。总 体框架 示意 图见 图1。DB23/T 3304-2022 3 关系数据库接口数据文件流数据管理信息系统FTP 服务管理信息系统关系数据库抽取网关服务文件接收FTP 服务文件拉取FTP 服务消息队列结构化数据存储非结构化数据存储数据源数据接入服务数据仓库大数据平台数据库Web接口服务HTTP 服务NFS 服务文件HTTP服务文件NFS服务数据库实时复制 图1 总体框 架示 意图 5.2 数据源 的接 入和 采集 方式 大数据 平台 作为 多

10、维 数据 的处理 平台,应 支持 各类 数据源 的接 入和 采集。常 用数据 源的 接入 和采 集包含但 不限 于以 下方 式:a)关系数 据库 抽取;b)数据库 实时 复制;c)网关服 务;d)消息队 列服 务;e)文件接 收FTP 服务;f)文件拉 取FTP 服 务;g)文件HTTP 服务;h)文件NFS 服 务。6 接入要 求 6.1 关系数 据库 抽取 DB23/T 3304-2022 4 6.1.1 功能要 求 关 系 数 据库 抽取 应 提 供管理 信 息 系统 关 系数 据 库中的 结 构 化数 据 到大 数 据平台 数 据 存储 的 定期 批量抽取 功能。关 系数 据库 数据抽

11、 取应 具备 以下 主要 功能:a)支持对 主流 的关 系数 据库 进行数 据抽 取;支持 对数 据库中 常用 的数 据类 型进 行数据 抽取,至 少包括数 值型、字 符型、日 期/时 间型 等数 据类 型;b)支持“全量”和“增 量”两种数 据抽 取模 式;c)支持关 系数 据库 中结 构化 数据抽 取到 大数 据平 台,包含结 构化 数据、半 结构 数据存 储的 数据 仓库中;d)支持对 关系 数据 库数 据的 采集内 容和 类型 转换 操作,至少 包括 选择 具体 的数 据表、选择 表中 具体的字 段、字段 类型 格式 转换等 操作;e)支持数 据抽 取操 作的 立即 执行、定 期调 度

12、运 行。定 期调度 运行 应提 供多 种调 度策略,至少 包 括固定期 间间 隔运 行、指定 期间点 运行、指 定期 间范 围运行、一 次或 指定 次数 运行等 策略;f)应提供 图形 化管 理界 面,应 提供数 据抽 取模 式设 置、抽 取源关 系数 据库 配置、指 定 数据表 配置、表字段 选择 配置、字段 类 型转换 配置、大数 据平 台 目标存 储位 置配 置、运 行 策略配 置等 操作 界面;g)应提供 完善 的日 志和 审计 能力,可以 记录 数据 抽取 操作配 置、运行 时发 生的 各种事 件;h)应提供 完善 的监 控机 制,运行过 程中 出现 异常 可快 速的定 位及 解决。

13、6.1.2 应用场 景描 述 应用场 景描 述如 下:a)关系数 据库 抽取 服务,抽 取数据 源中 数据 库的 元数 据信息,包括 数据 库用 户 所属的 表、字 段信息;b)关系数 据库 抽取 服务 配置 数据传 输任 务,包括 抽取 数 据库的 源表 和大 数据 平台 对应的 存储 目 标表;c)关系数 据库 抽取 服务 配置 数据传 输任 务运 行策 略,包 括运行 的开 始时 间、结束 时 间、运 行频 度;d)关系数 据库 抽取 服务 运行 数据传 输任 务,从数 据源 的数据 库抽 取数 据到 平台 数据存 储中。6.1.3 应用场 景图 关系数 据库 抽取 应用 场 景 见图2

14、。DB23/T 3304-2022 5 数据源 大数据平台数据抽取服务 大数据平台数据仓库b)配置数据传输任务a)抽取元数据信息c)配置数据传输任务运行策略d)平台运行数据传输任务,抽取数据信息流数据流 图2 关系数 据库 抽取 应用 场景 6.1.4 应用要 求 应用要 求如 下:a)关系数 据库 抽取 服务 适用 于关系 数据 库定 期批 量抽 取场景,详 细说 明见 附 录A;b)数据源 须提 供关 系数 据库 的访问 链接,包 括 IP、端 口、数 据库 实例 名、用户 名、密 码;c)数据源 提供 的数 据库 访问 用户应 具备 数据 库的 元数 据信息 定义 表的 读取 权限。6.

15、2 数据库 实时 复制 6.2.1 功能要 求 数 据 实 时复 制 应提 供 业务系 统 关 系型 数 据库 中 的结构 化 数 据到 大 数据 平 台数据 存 储 的增 量 低时 延复制功 能,数据 实时 复制 应具备 以下 主要 功能:a)支持对 主流 的 关 系型 数据 库进行 低时 延增 量复 制,至少包 括 Oracle、MySQL、PostgreSQL 等关系型数 据库;支 持对 数据 库中常 用的 数据 类型 进行 数据抽 取,至少 包括 数值 型、字 符型、日 期/时间 型等 数据 类型;b)支持秒 级时 延的 关系 型数 据库增 量复 制能 力;同时 支持在 全量 复制 的

16、基 础上,无缝 自动 切换 到增量复 制模 式;c)支持关 系型 数据 库中 结构 化数据 抽取 到大 数据 平台 关系型 数据 存储、非 关系 型数据 存储、分 布式文件 存储、实 时数 据存 储及消 息队 列;d)支持对 关系 型数 据库 数据 的内容 和类 型转 换操 作,至少包 括不 同数 据库 差异 转换、字段 类型 格式转换、时 区转 换等 操作;e)支持对 复制 对象 的过 滤,至少包 括模 式过 滤、表过 滤、字 段过 滤、数据 行过 滤;DB23/T 3304-2022 6 f)支持数 据复 制操 作的 手动 触发、定期 调度 及外 部触 发 运行。定期 调度 运行 应提 供

17、 多种调 度策 略,至少包 括固 定期 间间 隔运 行、指定 期间 点运 行、指 定期间 范围 运行、一次 或 指定次 数运 行等 策略;外 部触 发支 持标 准 webservice 接口;g)应提供 中心 图形 管理 界面,应提 供源 端元 数据 查看、数据复 制场 景管 理、数据 表配置、表 字段;h)选择配 置、字段 类型 转换 配置、触发 机制 配置、目 标端输 出配 置、运行 策略 配置、运行 监控 等操作界 面。6.2.2 应用场 景 应用过 程如 下:a)业务系 统关 系 型 数据 库服 务器上 部署 增量 捕获 程序;b)增量捕 获程 序捕 获到 增量 数据通 过 TCP 或

18、 消息 队列 发送到 大数 据平 台增 量接 收服务;c)大数据 平台 解析 增量 数据,并将 增量 数据 存储 到大 数据平 台中;d)大数据 平台 分发 增量 数据 到目标 数据 仓库 中。6.2.3 应用场 景图 数据库 实时 复制 应用 场景 见图3。关系数据库a增量捕获程序bc大数据平台接收、解析服务大数据平台数据仓库TCP/消息队列d 图3 数据库 实时 复制 应用 场景 6.2.4 应用要 求 应用要 求包 括:a)源数据 库应 是关 系型 数据 库;b)源数据 库表 应包 含主 键或 唯一索 引;c)源端数 据库 应开 启附 加日 志和强 制归 档模 式;d)源端数 据库 的在

19、 线日 志文 件、归 档日 志文 件应 存放 在文件 系统 上。6.3 网关服 务 6.3.1 功能要 求 网关服 务为 数据 源提 供大 数据平 台中 结构 化数 据或 非结构 化数 据的 接口 数据 接入。网关 服务 应具 备以下主 要功 能:a)支持接 入webservice、RESTful 方式 的接 口;b)支持包 括结 构化 数据、非 结构化 数据 的接 口;c)支持接 口编 排,轻松 实现 多个接 口的 功能 集成;d)提供图 形化 管理 界面,用 于接口 数据 存储 位置、操 作用户、目 标存 储位 置的 配置;e)提供完 善的 日志 和审 计能 力,应 记录 接口 数据 配置

20、 及数据 抽取 操作 配置、运 行时发 生的 各种 事件;DB23/T 3304-2022 7 f)具备熔 断管 理机 制,接口 访问异 常情 况下 的处 理策 略,保 证服 务整 体可 用。6.3.2 应用场 景 网关服 务应 用场 景描 述如 下:a)数据源 向大 数据 平台 提供 接口信 息,包括:接 口访 问地址、输 入参 数、输出 参数、验证 方式 等接口信 息;b)大数据 平台 根据 数据 源提 供的数 据接 口进 行定 义及 编排;c)网关服 务配 置数 据传 输任 务运行 策略,包 括运 行的 开始时 间、结束 时间、运 行频度;d)网关服 务运 行数 据传 输任 务,从 数据

21、 源的 数据 接口 中抽取 数据 到大 数据 平台 数据仓 库中。6.3.3 应用场 景图 网关服 务应 用场 景见 图4。数据源 大数据平台数据网关服务 大数据平台数据仓库b)创建数据库、用户,分配权限a)资源申请返回数据访问链接、用户名、密码c)应用程序开发d)配置访问链接参数,建立链接身份认证通过,连接成功e)进行权限范围内数据操作 图4 网关服 务应 用场 景 6.3.4 应用要 求 网关服 务应 用要 求包 括:a)网关服 务适 用于 提供 接口 类数据 的数 据源,详 细说 明见附 录B;b)提供数 据接 口的 数据 源需 做好自 身数 据操 作接 口程 序的开 发。6.4 消息队

22、 列 6.4.1 功能要 求 消息队 列采 集为 管理 信息 系统提 供消 息推 送和 缓存 功能。消息 队列 应具 备以 下主要 功能:a)应提供 分布 式消 息队 列的 管理功 能,支持 消息 主题 的创建、删 除、修改;b)应提供 支持“点 对点”和“发布-订 阅”两个 消息 模 式;DB23/T 3304-2022 8 c)应支持 消息 的持 久化 存储 操作并 且支 持持 久化 周期 设置;d)应提供 消息 分布 式高 可用 的发送 和消 费接 口,包括 链接建 立、消息 发送、消 息 消费、链接 关闭,支持消 息分 区和 备份 操作;e)具有风 格统 一的 图形 化管 理界面,支

23、持消 息队 列主 题的创 建、删除、测 试、授权访 问的 操作;f)具备完 善的 日志 审计 能力,应记 录消 息发 送和 消费 时发生 的各 种事 件。6.4.2 应用场 景 应用场 景描 述如 下:a)管理信 息系 统应 向大 数据 平台申 请消 息队 列接 入服 务;b)大数据 平台 根据 申请 创建 消息队 列主 题,返回 消息 队列名 称;c)管理信 息系 统开 发业 务处 理程序,调 用平 台消 息队 列接口,发 送数 据或 接收 数据。6.4.3 应用场 景图 消息队 列应 用场 景见 图5。数据源 大数据平台实时消息队列服务 大数据平台数据仓库b)创建消息队列主题a)申请实时消

24、息队列接入服务c)业务系统开发业务处理程序,发送或接入消息信息流数据流 图5 消息队 列应 用场 景 6.4.4 应用要 求 应用要 求如 下:a)消息队 列采 集适 用于 管理 信息系 统主 动将 数据 封装 为消 息,发 送到 大数 据平 台的消 息队 列中。基于消 息队 列的 消息 缓存 进行数 据分 析,详细 说明 见附 录 C;b)发送的 消息 内容 格式 支持 字符串,发 送的 数据 对象 可 通过对 象序 列化 机制 转换 为字符 串格 式 的消息内 容;DB23/T 3304-2022 9 c)管 理 信 息 系统 应 依 照大 数据 平 台 提 供的 消 息 队列 采集 接

25、口 完 成自 身 数 据发 送或 接 收 接 口的 开发。6.5 文件接 收FTP 服务 6.5.1 功能要 求 文件接 收FTP 服务应 提供 外 部系统 文件数 据的 接收并 存入到 大数据 平台 数据仓 库的功 能。文 件采 集应具备 以下 主要 功能:a)支持标 准 FTP 协议 接收 数 据;b)支持顺 序型 断点 续传 功能;c)支持接 收的 文件 的重 命名 及指定 存储 目录;d)应支持 对接 收文 件的 完整 性校验;e)应支持 对客 户端 进行 认证;f)支持图 形管 理功 能,支持 认证配 置、文件 目标 位置 配置、校验 处理 配置。6.5.2 应用场 景 应用场 景描

26、 述如 下:a)大数据 平台 配置 应用 账号、接收 参数 及存 储位 置;b)管理信 息系 统通 过标 准 FTP 协议 连接 大数 据平 台服 务;c)管理信 息系 统检 查目 标临 时文件 是否 存在;d)管理信 息系 统发 起全 量或 续传指 令;e)管理信 息系 统发 送数 据到 大数据 平台;f)大数据 平台 接收 文件 数据;g)管理信 息系 统发 送数 据校 验文件;h)大数据 平台 根据 校验 文件 校验数 据文 件内 容;i)大数据 平台 按配 置的 规则 存储接 收到 的数 据文 件;j)大数据 平台 回写 数据 存储 状态;k)管理信 息系 统获 取数 据存 储状态。6

27、.5.3 应用场 景图 文件FTP 服 务应 用场 景见 图6。DB23/T 3304-2022 10 数据源 大数据平台文件接收FTP 服务 大数据平台数据仓库a)大数据平台配置应用账号 b)业务系统通过标准FTP 协议连接大数据平台服务c)业务系统检查目标临时文件是否存在d)业务系统发起全量或续传命令e)业务系统发送数据到大数据平台g)业务系统发送改命令修改文件为带校验的文件名f)大数据平台接收文件数据h)大数据平台校验文件内容i)大数据平台按配置的规则存储接收到的文件j)大数据平台通知后续业务继续处理信息流数据流 图6 文件 FTP 服 务应 用场 景 6.5.4 应用要 求 应用要 求

28、如 下:a)管理信 息系 统应 在大 数据 平台注 册并 申请 账号;b)管理信 息系 统应 按平 台协 议规范 开发 上传 功能;c)管理信 息系 统生 成文 件数 据时应 同时 生成 对应 的完 整性校 验码;d)具体文 件接 收 FTP 服务 API 接 口详 细说 明见 附录D。6.6 文件拉 取FTP 服务 6.6.1 功能要 求 文件拉 取FTP 服 务,应提 供 通过访 问FTP 协 议实 现将 文 件数 据 抽取 到大 数据 平台 数据仓 库的 功能。文件拉取FTP 服务 应具 备以 下 主要功 能:a)支持顺 序型 断点 续传 功能,支持 外部 文件 存储 断点 续传能 力的

29、 自动 识别 及模 式匹配;b)支持 FTP 服务 登录 用户 名 和密码 设置;DB23/T 3304-2022 11 c)支持文 件压 缩传 输,提供 文件压 缩规 则设 置;d)支持文 件加 密传 输,提供 文件加 密传 输规 则设 置;e)支持设 置文 件同 步、异步 拉取,支持 设置 拉取 并行 度;f)支持指 定目 标文 件存 储位 置、文 件名,提 供文 件类 型转换 规则,支 持常 见类 型转换;g)支持全 量文 件采 集,支持 外部数 据一 次性 初始 化导 入;h)支持定 期轮 询文 件采 集,采集新 增的 文件,支 持文 件列表 规则 过滤;i)支持图 形管 理功 能,支

30、持FTP 连 接配 置、文 件源 配置、文件 目标 存储 配置、文 件压缩 和加 密 传输规则 配置、文件 同步/异 步传输 规则 配置、文件 传 输并行 度配 置、文 件定 期 及实时 策略 配置、文件采 集过 滤配 置。6.6.2 应用场 景 6.6.2.1 基于FTP 协 议的 全量 文件 采集应 用场 景 应用场 景描述 如 下:a)业务系 统应 提供 初始 文件 存储位 置;b)大数据 平台 全量 文件 采集 提供基 于 FTP 协 议的 采集 任务配 置,包 括:存储 文 件位置、采集 文 件列表方 式、是否 文件 校验、存储 目标 位置 及文 件存 储命名 规则;c)大数据 平台

31、 运行 文件 采集 任务,读取 文件 存入 大数 据平台 数据 仓库 中。6.6.2.2 应用场 景图 基于FTP 协 议的 全量 文件 采 集应用 场景 见图7。数据源 大数据平台文件拉取FTP 服务b)配置基于FTP 协议的全量采集任务a)将业务数据写入指定文件区域读取文件数据进行文件校验,写入大数据平台存储c)运行基于FTP 协议的全量采集任务大数据平台数据仓库信息流数据流 图7 基于 FTP 协 议全 量采 集应 用场景 6.6.2.3 基于FTP 协 议的 定期 轮询 采集应 用场 景 应用场 景描 述如 下:DB23/T 3304-2022 12 a)业务系 统应 按照 业务 需求

32、 生成数 据文 件,存储 在指 定文件 区域;b)业务系 统应 根据 校验 算 法SHA1 在相 同目 录下 生成 校 验文件,校 验文 件名 称与 数据文 件相 同;c)大数据 平台 轮询 文件 采集 服务配 置基 于 FTP 协 议的 定期轮 询采 集任 务,定期 轮询采 集文 件;d)大数据 平台 定期 读取 解析 索引及 校验 文件 内容;如 果业务 系统 数据 文件 出现 新增时,大 数据 平台读取 数据 文件 内容,并 且进行 文件 校验,如 果文 件完整,则 将数 据文 件写 入大数 据平 台中。6.6.2.4 应用场 景图 基于FTP 协 议的 定期 轮询 采 集应用 场景 见

33、图8。数据源 大数据平台文件FTP服务c)配置基于FTP 协议的定期轮询采集任务a)将业务数据写入指定文件区域读取文件数据进行文件校验,写入大数据平台存储e)文件有更新、读取文件大数据平台数据仓库b)生成索引、校验文件d)定期读取索引文件信息流数据流 图8 基于 FTP 协 议的 定期 轮询 采集应 用场 景 6.6.3 应用要 求 应用要 求如 下:a)业务系 统应 先将 业务 数据 保存为 文件,并 设置 访问 权限;b)文件数 据校 验算 法应 支持 标准 的 SHA1 进 行校 验,结 果转化 为 16 进制 ASCII 字 符表示;c)数据文 件可 通 过FTP 协议 访问;d)业务

34、系 统生 成文 件数 据时 应同时 生成 对应 的完 整性 校验码;e)具体文 件拉 取FTP 服务 API 接口 详细 说明 见附 录 E。6.7 文件HTTP 服务 6.7.1 功能要 求 文件HTTP 服 务,应提 供通 过访问HTTP 协议 实现 将文 件信息 抽取 到大 数据 平台 存储的 功能。文 件HTTP服务应 具备 以下 主要 功能:a)支持顺 序型 断点 续传 功能,支持 外部 文件 存储 断点 续传能 力的 自动 识别 及模 式匹配;b)支持文 件压 缩传 输,提供 文件压 缩传 输规 则设 置;DB23/T 3304-2022 13 c)支持文 件加 密传 输,提供 文

35、件加 密传 输规 则设 置;d)支持设 置文 件同 步、异步 拉取,支持 设置 拉取 并行 度;e)支持制 定目 标文 件存 储位 置、文 件名,提 供文 件类 型转换 规则,支 持常 见类 型转换;f)支持全 量文 件采 集,支持 外部数 据一 次性 初始 化导 入;g)支持定 期轮 询文 件采 集,采集新 增的 文件,支 持文 件列表 规则 过滤;h)支持图 形管 理功 能,支持 文件源 配置、文 件目 标存 储配置、文 件压 缩和 加密 传输规 则配 置、文件同步/异步传 输规 则配置、文件 传输并 行度 配置、文件定 期及实 时策 略配置、文件 采集过 滤配置。6.7.2 应用场 景

36、6.7.2.1 基于HTTP 协议 的全 量采 集 应用场 景 应用场 景描 述如 下:a)业务系 统应 提供 初始 文件 存储位 置;b)大数据 平台 全量 文件 采集 提供基 于 HTTP 协议 的采 集 任务配 置,包括:存 储文 件位置、采 集 文件列表 方式、是否文 件校 验、传 输是否 压缩、加密、同步/异步、并行 度、存 储目标 位置及 文件存储 类型 转换 和命 名规 则;c)大数据 平台 运行 文件 采集 任务,读取 文件 存入 大数 据平台 数据 仓库 中。6.7.2.2 应用场 景图 基于HTTP 协 议的 全量 采集 应用场 景见 图9。数据源 大数据平台文件HTTP

37、服务b)配置基于HTTP 协议的全量采集任务a)将业务数据写入指定文件区域读取文件数据进行文件校验,写入大数据平台存储c)运行基于HTTP 协议的全量采集任务大数据平台数据仓库信息流数据流 图9 基于HTTP 协议 的全 量采 集 应用场 景 6.7.2.3 基于HTTP 协议 的定 期轮 询 采集应 用场 景 应用场 景描 述如 下:DB23/T 3304-2022 14 a)业务系 统应 按照 业务 需求 生成数 据文 件,存储 在指 定文件 区域;b)业务系 统应 根据 校验 算 法SHA1 在相 同目 录下 生成 校 验文件,校 验文 件名 称与 数据文 件相 同;c)大数据 平台 轮

38、询 文件 采集 服务配 置基 于 HTTP 协议 的 定期轮 询采 集任 务,定期 轮询采 集文 件;d)大数据 平台 定期 读取 解析 索引及 校验 文件 内容;如 果业务 系统 数据 文件 出现 新增时,大 数据 平台读取 数据 文件 内容,并 且进行 文件 校验,如 果文 件完整,则 将数 据文 件写 入大数 据平 台中。6.7.2.4 应用场 景图 基于HTTP 协 议的 定期 轮询 采集应 用场 景见 图10。数据源 大数据平台文件HTTP服务c)配置基于HTTP 协议的定期轮询采集任务a)将业务数据写入指定文件区域读取文件数据进行文件校验,写入大数据平台存储e)文件有更新、读取文件

39、大数据平台数据仓库b)生成索引、校验文件d)定期读取索引文件信息流数据流 图10 基于 HTTP 协议 的定 期轮 询 采集应 用场 景 6.7.3 应用要 求 应用要 求如 下:a)业务系 统须 先将 业务 数据 保存为 文件;b)文件数 据校 验算 法须 支持 标准 的 SHA1 进 行校 验,结 果转化 为 16 进制 ASCII 字 符表示;c)数据文 件可 通 过HTTP 协 议 访问;d)业务系 统生 成文 件数 据时 应同时 生成 对应 的完 整性 校验码;e)具体文 件HTTP 服务API 接 口详细 说明 见附 录 F。6.8 文件NFS 服务 6.8.1 功能要 求 文件N

40、FS 服 务,应提 供通 过 访问NFS 文 件系 统,实现 将 文件信 息抽 取到 大数 据平 台数据 存储 的功 能。文件NFS 服 务应 具备 以下 主 要功能:a)支持顺 序型 断点 续传 功能,支持 外部 文件 存储 断点 续传能 力的 自动 识别 及模 式匹配;b)支持指 定目 标文 件存 储位 置、文 件名,提 供文 件类 型转换 规则,支 持常 见类 型转换;DB23/T 3304-2022 15 c)支持全 量文 件采 集,支持 外部数 据一 次性 初始 化导 入;d)支持定 期轮 询文 件采 集,采集新 增的 文件,支持 文 件列表 规则 过滤;e)支持图 形管 理功 能,

41、支持 文件源 配置、文 件目 标存 储配置、文 件压 缩和 加密 传输规 则配 置、文件定期 及实 时策 略配 置、文件采 集过 滤配 置。6.8.2 应用场 景 6.8.2.1 NFS 全 量文 件采 集应 用场 景 应用场 景描 述如 下:a)业务系 统应 提供 初始 文件 存储位 置;b)大数据 平台 全量 文件 采集 提供采 集 NFS 文 件任 务配 置,包括:存 储文 件位 置、采集文 件列 表 方式、是 否文 件校 验、存储 目标位 置及 文件 存储 命名 规则;c)大数据 平台 运行 文件 采集 任务,读取 文件 存入 大数 据平台 数据 仓库 中。6.8.2.2 应用场 景图

42、 NFS 全 量文 件采 集应 用场 景 见图11。数据源 大数据平台文件NFS服务b)配置NFS 文件全量采集任务a)将业务数据写入指定文件区域读取文件数据进行文件校验,写入大数据平台存储c)运行NFS 文件全量采集任务大数据平台数据仓库信息流数据流 图11 NFS 全 量文 件采 集应 用场 景 6.8.2.3 NFS 文 件定 期轮 询采 集应 用场景 应用场 景描 述如 下:a)业务系 统应 按照 业务 需求 生成数 据文 件,存储 在指 定文件 区域;b)业务系 统应 根据 校验 算法 SHA1 在相 同目录 下生 成校 验文件,校 验文 件名 称与 数据文 件相 同,文件扩 展名

43、为.SHA1;c)大数据 平台 轮询 文件 采集 服务配 置 NFS 文 件定 期轮 询采集 任务,定 期轮 询采 集文件;DB23/T 3304-2022 16 d)大数据 平台 定期 读取 解析 索引及 校验 文件 内容;如 果业务 系统 数据 文件 出现 新增时,大 数据 平台读取 数据 文件 内容,并 且进行 文件 校验,如 果文 件完整,则 将数 据文 件写 入大数 据平 台中。6.8.2.4 应用场 景图 NFS 文 件定 期轮 询采 集应 用 场景见 图12。数据源 大数据平台文件NFS服务c)配置NFS 文件定时轮询采集任务a)将业务数据写入指定文件区域读取文件数据进行文件校验

44、,写入大数据平台存储e)文件有更新、读取文件大数据平台数据仓库b)生成索引、校验文件d)定期读取索引文件信息流数据流 图12 NFS 文 件定 期轮 询采 集应 用场景 6.8.3 应用要 求 应用要 求如 下:a)业务系 统应 先将 业务 数据 保存为 文件,并 设置 访问 权限;b)文件数 据校 验算 法应 支持 标准 的 SHA1 进 行校 验,结 果转化 为 16 进制 ASCII 字 符表示;c)数据文 件可 通 过NFS 访问;d)业务系 统生 成文 件数 据时 应同时 生成 对应 的完 整性 校验码;e)具体文 件NFS 服务 API 接 口详细 说明 见附 录G。DB23/T

45、3304-2022 17 A A 附 录 A(资料 性)关系数 据库 抽取 接入 说明 A.1 关系 数 据库 应用 流程 图 关系数 据库 抽取 通过 大数 据平台 提供 的Web 界 面进 行 操作,完成 数据 接入 操作。关系 数据 库应 用流 程见图A.1:1.配置执行器 2.配置数据源 3.配置任务4.配置作业 是否立即执行7.执行日志查看 5.立即执行传输 6.作业调度配置与执行是否开始结束 图A.1 关系数 据库 应用 流程 图 A.2 应用流 程 应用流 程描 述如 下:a)大数据 平台 配置 执行 器,用于作 业调 度执 行的 服务;b)配置数 据源,分 别配 置源 数据库

46、及目 标数 据库。根 据业务 源端 的数 据库 的 IP、端 口、实例 名、用 户名、密码,进行 数据源 链接 配置,抽 取数 据库用 户所 属的 表、字段 信息,目标 端数 据 库配置,配置 抽取 目标 数 据库信 息配 置,包括 目标 数据库 的 IP、端口、用 户 名、密码、数据 库名;c)配置任 务,配置 源端 与目 标端字 段对 应关 系、是否 抽取、格式 化公 式等,一 个抽取 可配 置多 个 任务;d)配置作 业,根据 抽取 任务 执行的 先后 顺序 配置 成作 业;e)作业调 度配 置与 执行,将 数据库 抽取 配置 为作 业,支持配 置抽 取作 业的 执行 策略,包 括作 业

47、开 始时间、结 束时 间、运行 频率等;f)执行日 志查 看,提供 作业 执行结 果信 息查 看,包括 作业开 始执 行时 间、结束 时间、运行 时长、作业状 态、运行 结果、日 志详情 等。DB23/T 3304-2022 18 B B 附 录 B(资料 性)网关服 务接 入说 明 B.1 网关服 务应 用流 程图 通过大 数据 平台 的网 关服 务提供 的Web 界 面进 行操 作。首先 网关 服务 录入 接口 信息,然后 通过服 务编 排进 行接 口的 编排,生成 新的 数据 接口 进行调 度发 布。网 关服 务 应用流 程见 图B.1:1.登记接口信息 2.服务编排3.调度发布开始结束

48、 图B.1 网关服 务应 用流 程图 B.2 应用流 程 应用流 程描 述如 下:a)根据数 据源 提供 的数 据接 口地址、请 求方 式、请求 头配置、传 输协 议、请求 参数信 息在 服务 网 关进行 数据 接口 的登 记、熔断保 护配 置及 测试 验证;b)针对登 记的 接口 信息 进行 服务编 排,定义 接口 的输 入参数、输 出参 数、请求 头等信 息,并生 成 新的接 口地 址;c)服务编 排后 的数 据接 口配 置调度 策略,包 括调 度时 间、调度 周期 及频 次等 信息,然后进 行发 布。DB23/T 3304-2022 19 C C 附 录 C(资料 性)消息队 列接 入说

49、 明 C.1 消息队 列接 入说 明 管理信 息系统 通过 代码开 发方式 调用大 数据 平台提 供的消 息队列API接 口,往 消息队 列主题 中发 送数据。消息 队列 应用 流程 见图C.1:1.大数据平台与管理信息系统方约定消费队列主题名称2.大数据平台创建相应的消息队列3.管理信息系统应用方开发程序调用大数据平台消息队列API,封装数据发送消息开始结束 图C.1 消息队 列应 用流 程 说明:1 大数 据平 台与 管理 信 息系统 应用 方约 定消 息队 列主题 名称;2 大数 据平 台在 大数 据 集群中 创建 相应 的消 息队 列主题;3 管理 信息 系统 开发 程 序调用 大数

50、据平 台消 息队 列 API,封 装 数 据往 消息 队列主 题中 发送 消 息。C.2 消息队 列API 消息队 列API 接 口清 单见 表C.1。DB23/T 3304-2022 20 表C.1 消息队 列API 接 口清 单 序号 接口方法 接口说明 1 Producer(String username,String password,List)构建消息队列主题发送实例。参数说明如下:username:用户名 password:密码 topics:消息队列主题 名称 2 send(String topic,String message)往主题发送单条消息。参数说明如下:topic:主题

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 标准规范 > 地方标准

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1