1、 ICS 29.240 Q/GDW 国 家 电 网 公 司 企 业 标 准 Q/GDW 11704 2017 大数据平台数据 采集接入 规范 The Data Acquisition and Access Standard for the Big Data Platform 2018 - 03 - 05 发布 2018 - 03 - 05 实施 国家电网公司 发布 Q/GDW 11704 2017 I 目 次 前 言 . II 1 范围 . 1 2 规范性引用文件 . 1 3 术语和定义 . 1 4 缩略语 . 1 5 概述 . 1 6 技术要求 . 2 6.1 关系型数据库抽取 . 2 6.
2、2 数据网关服务 . 3 6.3 实时消息队列 . 5 6.4 文件接收 FTP服务 . 6 6.5 文件接收 WebService 服务 7 6.6 文件拉取 HTTP服务 8 6.7 文件拉取 FTP服务 10 6.8 文件拉取 NFS服务 12 6.9 数据库实时复制 14 附录 A(资料性附录) 关系型数据库抽取应用 . 16 附录 B(资料性附录) 数据网关服务应用 . 17 附录 C(资料性材料) 实时消息队列应用 . 20 附录 D(资料性附录) 文件接收 FTP服务应用 . 28 附录 E(资料性附录) 文件接收 WebService服务应用 26 附录 F(资料性附录) 文件
3、 拉取 HTTP服务应用 28 附录 G(资料性附录) 文件 拉取 FTP服务应用 . 32 附录 H(资料性附录) 文件 拉取 NFC 服务应用 . 35 编制说明 . 38 Q/GDW 11704 2017 II 前 言 为 规范国家电网公司大数据平台 的 数据采集 , 指导 信息 管理大区业务系统在设计、开发 、 实施 各 阶段 与 大数据平台的 数据 接入,满足国家电网公司对大数据平台 规范化 数据采集的要求 , 制定本 标准 。 本标准由国家电网公司信息通信部提出并解释。 本标准由国家电网公司科技部归口。 本标准起草单 位:国网信息通信产业集团有限公司、国网浙江省电力公司、中国电力科
4、学研究院。 本标准主要起草人:王继业、曾楠、陈宏、邹保平、黄文思、郝悍勇、王晋雄、苏志勇、陈振。 本标准首次发布。 本标准在执行过程中的意见和建议反馈至国家电网公司科技部。 Q/GDW 11704 2017 1 大数据 平台数据采集 接入 规范 1 范围 本标准规定了大数据 平台 与业务 系统 进行数据接入 的技术要求 及数据 采集接口、方式。 本标准适用于电力 大数据平台 进行数据 采集功能研发 、数据 采集工具 选型及其数据 接入场景提供 规范 要求 。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期 的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其
5、最新版本(包括所有的修改单)适用于本文件。 GB/T 29262 面向服务的体系结构( SOA)术语 Q/GDW 11702 2017 大数据平台总体架构和技术要求 3 术语和定义 GB/T 29262和 Q/GDW 11702 2017界定 的术语和定义适用于本文件。 4 缩略语 下列缩略语适用于本文件。 FTP:标准的文件传输协议( File Transfer Protocol) HTTP:标准的超文件传输协议( HyperText Transfer Protocol) JDBC: Java数据库连接 (Java DataBase Connectivity) SHA:安全哈希算法( Sec
6、ure Hash Algorithm) 5 概述 大数据 平台 支持 从关系型数据库、文件、流数据等来源 采集 数据 , 实现 各类 离线数据及实时数据的采集与接入 ,包括 设备采集数据、 企业管理业务数据、 外部数据等 。 其中 离线数据主要分为关系型数据库所存储的结构化数据及文件系统所存储的非结构文件数据,实时数据主要是设备采集监控及业务系统产生的实时流数据。其中关系数据库中的结构化数据可通过关系数据库抽取 、实时数据库复制及自定义数据网管服务接口程序等方式实现数据接入;非结构化文件数据可通过源端 FTP服务 拉取 及 NFS服务拉取数据方式、目标端 FTP服务 推送 及 NFS服务推送方
7、式、自定义数据网管接口程序、自定义 webservice服务程序等方式实现数据接入 ; 实时流数据主要通过 往 分布式消息队列 推送数据的方式进行实时接入。 总体采集框架见图 1: Q/GDW 11704 2017 2 图 1 总体 采集框架 6 技术 要求 6.1 关系型数据库抽取 6.1.1 功能要求 关系型数据库抽取 应 提供 业务系统关系型数据库中的结构化数据到大数据平台 数据 存储 的 定时批量 抽取 功能 。关系型 数据库数据抽取 应 具备以下主要功能: a) 支持对 主流的关系型数据库 进行 数据抽取 ,至少 包括 Oracle、 MySQL、 PostgreSQL、 达梦、金仓
8、 等 关系型数据库 ; 支持 对 数据库 中 常用的数据类型 进行 数据 抽取 , 至少 包括 数值型、字符型、日期 /时间型等数据 类型 ; b) 支持“全量” 和 “ 增量 ” 两种数据抽取模式 ;“全量” 模式是指 一次性 将关系型数据库中 物理表 的数据抽取到大数据平台。 “增量 ”模式 是指根据 设置 的 抽取 条件筛选符合条件的数据抽取到大数据 平台 ; c) 支持关系型 数据库中结构化数据抽取到 大数据 平台关系型数据存储、非关系型数据 存储 、 分布式 文件 存储 、实时数据 存储; d) 支持对关系型 数据库数据 的采集内容和类型 转换操作, 至少 包括 选择具体 的数据表、
9、 选择 表中具体的 字段、字段 类型 格式转换 等 操作 ; e) 支持 数据抽取操作的立即执行、定时调度运行。定时调度运行应提供多种调度策略, 至少 包括固定 时间间隔运行、 指定 时间点 运行 、 指定 时间范围运行、 一次或 指定次数运行等 策略; f) 应 提供 图形化管理界面, 应提供 数据 抽取模式设置、抽取源关系型数据库配置、 指定 数据表配置 、 表 字段 选择 配置 、字段类型转换配置 、 大数据平台目标 存储 位置配置 、 运行策略配置等 操作 界面 ; g) 应提供 完善的 日志 和审计能力, 可以 记录 数据 抽取操作 配置 、运行时 发生 的各种事件 。 Q/GDW
10、11704 2017 3 6.1.2 非功能性要求 关系型 数据库数据抽取 服务应满足 以下 非 功能 性要求 : a) 数据 抽取 速度: 不少于 2万条 /秒; b) 数据 抽取吞吐量: 在千兆带宽的网络条件下 , 数据 抽取吞吐量 不少于 100MB/秒。 6.1.3 应用场景 业 务 系 统大 数 据 平 台 数 据 抽 取服 务大 数 据 平 台 数 据 存 储a ) 抽 取 元 数 据 信 息b ) 配 置 数 据 传 输 任 务c ) 配 置 数 据 传 输 任 务 运 行 策 略d ) 平 台 运 行 数 据 传 输 任 务 , 抽 取 数 据信 息 流 数 据 流业 务 系
11、统 大 数 据 平 台 数 据 抽 取 服 务 大 数 据 平 台 数 据 存 储图 2 抽取服务应用场景 抽取服务过程见图 2,应用场景如下 : a) 关系型数据库抽取 服务 抽取 业务 系统中数据库的元数据信息,包括数据库用户所属的表、字段信息 ; b) 关系型数据库抽取 服务配置数据传输任务, 包括抽取的 业务系统数据库 的 源表和 大数据 平台对应的存储目标表 ; c) 关系型数据库抽取 服务配置数据传输任务运行策略,包括运行的 开始时间 、结束时间、运行频度 ; d) 关系型数据库抽取 服务运行数据传输任务, 从 业务系统关系型数据库抽取数据到平台 数据 存储中。 6.1.4 应用要
12、求 6.1.4.1 关系型数据库抽取 服务适用于关系型数据库 定时 批量抽取 场景, 详细应用流程 参 见附录 A.1。 6.1.4.2 业务系统须提供关系型 数据库的访问 链接, 包括 IP、端口、数据库实例名、用户名、密 码 。并且 , 业务 系统提供的数据库访问用户应具备数据库 的 元数据信息定义表的读取权限。 6.2 数据 网关服务 6.2.1 功能要求 Q/GDW 11704 2017 4 数据 网关服务为业务系统提供大数据平台中分布式文件系统 和非 关系型数据库的数据操作 接口。数据 网关服务 应 具备以下主要功能: a) 支持以 JDBC方式对外提供服务 ; b) 支持业务 系统
13、中结构化数据 、 非结构化数据的写入操作 ; c) 提供大数据 平台分布式文件系统和非关系型数据库的数据操作接口 。分布式 文件 数据 操作包括创建分布式文件 对应表 、 单 文件写入、 单 文件查询 。非 关系型数据库 数据 操作 包括创建 数据库表 、删除 数据库表、插入记录 、 更新记录、 删除记录 ; d) 提供图形化管理界面 , 用于业务系统数据存储位置、操作用户、目标存储位置的配置 ; e) 应提供 完善的 日志 和审计能力, 可以 记录 数据 抽取操作 配置 、运行时 发生 的各种事件 。 6.2.2 非功能性要求 数据网管服务 应满足 以下 非 功能 要求 : a) 数据写入速
14、率 : 在千兆带宽的网络条件下 , 数据 抽取吞吐量 不少于 50MB/秒; b) 操作 并发数: 并发数 大于 200个 /秒 。 6.2.3 应用 场景 业 务 系 统 大 数 据 平 台 数 据 网 关 服 务a ) 资 源 申 请b ) 创 建 数 据 库 、 用 户 , 分 配 权限返 回 数 据 访 问 链 接 、 用 户 名 、 密 码c ) 应 用 程 序 开 发d ) 配 置 访 问 链 接 参 数 , 建 立 链 接身 份 认 证 通 过 , 连 接 成 功e ) 进 行 权 限 范 围 内 数 据 操 作大 数 据 平 台 数 据 存 储图 3 数据 服务应用流程 数据服
15、务 应用场景 过程见图 3,应用场景如下 : a) 业务 系统 须 向大数据平台 申请 数据存储资源,包括 : 存储的位置、存储容量等 ; b) 大数据 平台根据业务系统资源申请,创建相应的数据库、 用户及其 存储容量配额并分配操作权限 ; c) 业务 系统 进行 应用程序开发 ,调用大数据 平台数据服务驱动进行 链接 访问和数据 操作; d) 业务 系统应用程序 配置 JDBC访问 链接参数,建立数据访问链接 ; Q/GDW 11704 2017 5 e) 业务 系统应用程序 连接 成功后,编写数据操作 SQL,进行数据操作。 6.2.4 应用要求 6.2.4.1 数据网关 服务适用于业务系
16、统主动将数据写入大数据平台存储 。 详细应用流程 参见 附录 B.1。 6.2.4.2 数据网关 服务中 SQL操作支持的数据 类型 包括 INTEGER、 DOUBLE、 NUMERIC、 VARCHAR、 CHAR、TIMESTAMP、 DATE、 BOOLEAN。 6.2.4.3 业务系统应依照大数据平台提供的数据 服务接口 完成自身数据 操作程序 的开发,具体 操作语法参见附录 B.2, 操作 错误提示信息 参见 附录 B.3。 6.3 实时 消息 队列 6.3.1 功能要求 实时 消息队列采集为业务系统提供实时消息推入和缓存功能。 实时 消息队列应 具备 以下主要功能 : a) 应
17、提供 分布式 消息队列的管理功能,支持消息主题的创建、删除、修改; b) 应 提供 支持“点 对点 ”和 “发布 -订阅 ”两个消息模式; c) 支持 消息的持久化 存储 操作 并且 支持持久 化 周期 设置 ; d) 应 提供消息 的 发送和消费接口, 包括链接建立 、 消息 发送、消息 消费 、链接 关闭。具体 操作接口详见附录 A.4; e) 应 提供分布式高可用的消息队列 操作 接口 , 支持消息的发送和 消费 ; 支持 消息分区和备份操作; f) 具有风格 统一的 图形化 管理界面,支持消息队列主题的创建、删除、测试、授权访问的操作 ; g) 具备 完善的日志审计 能力 , 可以 记
18、录消息发送和消费 时发生 的各种事件。 6.3.2 非功能性要求 实时消息 队列应 满足 以下非功能 性 要求: a) 高 可行性 :支持 消息主题的分区和备份; b) 负载 均衡: 支持消息 发送和消费时的负载均衡操作; c) 消息 发送 速度 : 可 接受的 数据量 大于 10万 条 /秒。 6.3.3 应用场景 业 务 系 统 大 数 据 平 台 实 时 消 息 队 列 服 务 大 数 据 平 台 实 时 消 息 队 列a ) 申 请 实 时 消 息 队 列 接 入 服 务b ) 创 建 消 息 队 列 主 题c ) 业 务 系 统 开 发 业 务 处 理 程 序 , 发 送 或 接 入
19、 消 息信 息 流 数 据 流返 回 消 息 队 列 名图 4 实时 消息 队列 采集服务应用 Q/GDW 11704 2017 6 实时 消息队列采集服务应用 过程 见图 4, 应用场景如下 : a) 业务系统须 向大数据平台申请实时消息队列 接入 服务 ; b) 大数据 平台 根据 申请创建消息队列主题 , 返回 消息 队列名称 ; c) 业务系统 开发业务处理程序, 调用 平台实时消息队列 接口 ,发送数据或 接收 数据。 6.3.4 应用 要求 6.3.4.1 实时 消息队列采集适用于业务系统主动将数据封装为消息 , 发送到大数据平台的实时消息队列中 。 基于 实时 消息队列 的 消息
20、缓存 进行 数据分析,如 流 计算实时处理等。 具体 应用流程参见附录 C.1。 6.3.4.2 发送的消息内容格式支持字符串,发送的数据对象可以通过对象序列化机制转换为字符串格式的消息内容。 6.3.4.3 业务系统应依照大数据平台提供的实时 消息队列采集接口 完成自身数据发送或 接收接口 的开发。 具体 API接口 参见附录 C.2, 具体实现 逻辑 参见附录 C.3。 6.4 文件接收 FTP 服务 6.4.1 功能要求 文件接收 FTP服务应提供外部系统非结构化文件的接收并存入到大数据平台分布式文件系统功能。文件采集应具备以下主要功能: a) 支持标准 FTP协议接收数据; b) 支持
21、顺序型断 点续传功能; c) 支持接收的文件的重命名及指定存储目录; d) 应支持对接收文件的完整性校验; e) 应支持对客户端进行认证; f) 支持图形管理功能,支持认证配置、文件目标位置配置、校验处理配置。 6.4.2 应用场景 大 数 据 平 台 F T P 文 件 接 收 服 务 大 数 据 平 台 分 布 式 文 件 系 统b ) 业 务 系 统 通 过 标 准 F T P 协 议连 接 大 数 据 平 台 服 务信 息 流 数 据 流a ) 大 数 据 平 台 配 置 应 用 账 号c ) 业 务 系 统 检 查 目 标 临 时 文 件 是 否存 在d ) 业 务 系 统 发 起
22、全 量 或 续 传 指 令e ) 业 务 系 统 发 送 数 据 到 大 数 据 平 台f ) 大 数 据 平 台 接 收 文 件 数 据g ) 业 务 系 统 发 送 改 名 命 令 修 改 文 件 为 带 校 验的 文 件 名h ) 大 数 据 平 台 校 验 文 件 内 容i ) 大 数 据 平 台 按 配 置 的 规 则 存 储 接 收 到的 文 件j ) 大 数 据 平 台 通 知 后 续 业 务 继 续 处 理业 务 系 统图 5 文件接收 FTP 服务 应用场景 Q/GDW 11704 2017 7 文件接收 FTP服务应用 过程 见图 5,应用场景如下: a) 大数据平台配置应
23、用账号、接收参数及存储位置; b) 业务系统通过标准 FTP协议连接大数据平台服务; c) 业务系统检查目标临时文件是否存在; d) 业务 系统发起全量或续传指令; e) 业务系统发送数据到大数据平台; f) 大数据平台接收文件数据; g) 业务系统发送改名命令修改文件为带校验的文件名; h) 大数据 平台 校验文件内容; i) 大数据平台按配置的规则存储接收到的文件; j) 大数据平台通知后续业务继续处理。 6.4.3 应用要求 6.4.3.1 业务系统须在大数据平台注册并申请账号。 6.4.3.2 业务系统须按平台协议规范开发上传功能。 6.4.3.3 业务系统生成文件数据时须 同时 生成
24、对应的完整性校验码。 6.4.3.4 文件数据校验算法须支持标准的 SHA1进行校验,结果转化为 16 进制 ASCII字符表示。 6.4.3.5 具体 文件 接收 FTP服务 API 接口 参见附录 D.1, 具体实现 逻辑 参见附录 D.2。 6.5 文件接收 WebService 服务 6.5.1 功能要求 文件接收 WebService服务应提供外部系统非结构化文件的接收并存入到大数据平台分布式文件系统 功能。文件采集应具备以下主要功能: a) 支持标准 WebService 协议接收数据; b) 支持顺序型断点续传功能; c) 支持接收的文件的重命名及指定存储目录; d) 应支持对接
25、收文件的完整性校验; e) 应支持对客户端进行认证; f) 支持图形管理功能,支持认证配置、文件目标位置配置、校验处理配置。 6.5.2 应用场景 Q/GDW 11704 2017 8 业 务 系 统 大 数 据 平 台 W e b S e r v i c e 文 件 接 收 服 务b ) 业 务 系 统 通 过 标 准 W e b S e r v i c e协 议 连 接 大 数 据 平 台 服 务信 息 流 数 据 流a ) 大 数 据 平 台 配 置 应 用 账 号c ) 业 务 系 统 一 次 性 发 送 数 据 、 内容 校 验 码 到 大 数 据 平 台d ) 大 数 据 平 台
26、接 收 文 件 数 据e ) 大 数 据 平 台 校 验 文 件 内 容f ) 大 数 据 平 台 按 配 置 的 规 则 存 储 接 收到 的 文 件g ) 大 数 据 平 台 通 知 后 续 业 务 继 续 处 理大 数 据 平 台 分 布 式 文 件 系 统图 6 文件接收 WebService 服务 应用场景 文件接收 WebService服务应用 过程 见图 6,应用场景如下: a) 大数据平台配置应用账号、接收参数及存储位置; b) 业务系统通过标准 WebService协议连接大数据平台服务; c) 业务系统一次性发送数据、内容校验码到大数据平台; d) 大数据平台接收文件数据;
27、 e) 大数据 平台 校验文件内容; f) 大数据平台按配置的规则存储接收到的文件; g) 大数据平台通知后续业务继续处理。 6.5.3 应用要求 6.5.3.1 业务系统须在大数据平台注册并申请账号。 6.5.3.2 业务系统必须按大数据 平台加密方式进行登录加密。 6.5.3.3 业务系统须按平台 WebService规范调用服务。 6.5.3.4 业务系统生成文件数据时须 同时 生成对应的完整性校验码。 6.5.3.5 文件大小必须小于 2M。 6.5.3.6 文件数据校验算法须支持标准的 SHA1进行校验,结果转化为 16 进制 ASCII字符表示。 6.5.3.7 具体 文件 接收
28、WebService服务 API接口 参见附录 E.1, 具体实现 逻辑 参见附录 E.2。 6.6 文件拉取 HTTP 服务 6.6.1 功能要求 文件拉取 HTTP服务,应提供通过访问 HTTP协议实现将文件信息抽取到大数据平台存储的功能。文件拉取 HTTP服务应具备以下主要功能: a) 支持顺序型断 点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配; b) 支持文件压缩传输,提供文件压缩规则设置; c) 支持文件加密传输,提供文件加密传输规则设置; d) 支持设置文件同步、异步拉取,支持设置拉取并行度; Q/GDW 11704 2017 9 e) 支持指定目标文件存储位置、文
29、件名,提供文件类型转换规则,支持常见类型转换; f) 支持 全量文件采集 ,支持外部数据一次性初始化导入; g) 支持 定时轮询文件采集 , 采集新增的文件, 支持文件列表规则过滤; h) 支持图形管理功能,支持文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文件同步 /异步传输规则配置、文件传输并行度 配置、文件定时及实时策略配置、文件采集过滤配置。 6.6.2 应用场景 6.6.2.1 基于 HTTP 协议的全量 文件采集 应用场景 业 务 系 统 大 数 据 平 台 文 件 拉 取 H T T P 服 务 大 数 据 平 台 分 布 式 文 件 系 统a ) 将 业 务 数 据
30、 写 入 指定 文 件 区 域b ) 配 置 基 于 H T T P 协 议 的 全 量 采集 任 务信 息 流 数 据 流读 取 文 件 数 据c ) 运 行 基 于 H T T P 协 议 的 全 量 采集 任 务进 行 文 件 校 验 , 写 入 大 数 据 平 台 存 储图 7 基于 HTTP 协议全量 采集应用场景 基于 HTTP协议的全量采集应用过程 见图 7,应用 过程 如下: a) 业务系统应提供初始文件存储位置; b) 大数据 平台 全量 文件采集 提供基于 HTTP 协议的采集 任务配置,包括 :存储文件位置、采集文件列表方式、是否文件校验、传输是否压缩、加密、同步 /异步
31、、并行度、存储目标位置及文件存储类 型转换和命名规则; c) 大数据 平台 运行文件 采集 任务 , 读取 文件存入大数据平台数据存储中 。 6.6.2.2 基于 HTTP 协议的定时轮询采集应用场景 Q/GDW 11704 2017 10 业 务 系 统 大 数 据 平 台 文 件 拉 取 H T T P 服 务 大 数 据 平 台 分 布 式 文 件 系 统a ) 将 业 务 数 据 写 入 指 定 文件 区 域c ) 配 置 基 于 H T T P 协 议 的 定 期 轮 询 采 集任 务信 息 流 数 据 流读 取 文 件 数 据b ) 生 成 索 引 、 校 验 文 件d ) 定 期
32、 读 取 索 引 文 件e ) 文 件 有 更 新 , 读 取 文 件f ) 进 行 文 件 校 验 , 写 入 大 数 据 平 台 存 储图 8 基于 HTTP 协议轮询 采集应用场景 基于 HTTP协议的定时轮询采集应用过程 见图 8,应用 过程 如下: a) 业务系统应按照业务需求 生成数据文件, 存储 在 指定 文件区域 ; b) 业务系统应根据校验 算法 SHA1 在 相同目录下生成校验文件 ,校验 文件名称与数据文件相同,文件扩展名为 .SHA1; c) 大数据平台轮 询 文件采集服务 配置基于 HTTP协议的 定期轮询采集任务,定期 轮询 采集 文件; d) 大数据平台定期读取解
33、析索引及校验文件内容; e) 如果 业务系统数据文件 出现新增 时 ,大数据 平台 读取数据文件内容;并 且进行文件校验 。 如果文件完整 , 则 将 数据文件写入 大数据 平台中。 6.6.3 应用要求 6.6.3.1 业务系统须先将 业务数据保存为 文件。 6.6.3.2 文件数据校验算法须支持标准的 SHA1进行校验,结果转化为 16 进制 ASCII字符表示。 6.6.3.3 数据文件可通过 HTTP协议访问。 6.6.3.4 业务系统生成文件数据时须 同时 生成对应的完整性校验码。 6.6.3.5 具体 文件 拉取 HTTP服务 API接口 参见附录 F.1, 具体实现 逻辑 参见附
34、录 F.2 6.7 文件拉取 FTP 服务 6.7.1 功能要求 文件拉取 FTP服务,应提供通过访问 FTP协议实现将文件信息抽取到大数据平台存储的功能。文件拉取 FTP服务应具备以下主要功能: a) 支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配; b) 支持 FTP服务登录用户名和密码设置; Q/GDW 11704 2017 11 c) 支持文件压缩传输,提供文件压缩规则设置; d) 支持文件加密传输,提供文件加密传输规则设置; e) 支持设置文件同步、异步拉取,支持设置拉取并行度; f) 支持指定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换
35、; g) 支持 全量文件采集 ,支持外部数据一次性初始化导入; h) 支持 定时轮询文件采集 , 采集新增的文件, 支持文件列表规则过滤; i) 支持图形管理功能,支持 FTP连接配置、文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文件同步 /异步传输规则配置、文件传输并行度配置、文件定时及实时策略配置、文件采集过滤配置。 6.7.2 应用场景 6.7.2.1 基于 FTP 协议的全量 文件采集 应用场景 业 务 系 统 大 数 据 平 台 文 件 拉 取 F T P 服 务 大 数 据 平 台 分 布 式 文 件 系 统a ) 将 业 务 数 据 写 入 指 定 文 件 区域b
36、) 配 置 基 于 F T P 协 议 的 全 量 采 集 任 务信 息 流 数 据 流读 取 文 件 数 据c ) 运 行 基 于 F T P 协 议 的 全 量 采 集 任 务进 行 文 件 校 验 , 写 入 大 数 据 平 台 存 储图 9 基于 FTP 协议全量 采集应用场景 基于 FTP协议的全量 文件采集 应用场景见图 9,应用过程如下: a) 业务系统应提供初始文件存储位置; b) 大数据 平台 全量 文件采集 提供基于 FTP协议的采集 任务配置,包括 :存储文件位置、采集文件列表方式、是否文件校验、存储目标位置及文件存储命名规则; c) 大数据 平台 运行文件 采集 任务
37、, 读取 文件存入大数据平台数据存储中 。 6.7.2.2 基于 FTP 协议的定时轮询采集应用场景 Q/GDW 11704 2017 12 业 务 系 统 大 数 据 平 台 文 件 拉 取 F T P 服 务 大 数 据 平 台 分 布 式 文 件 系 统a ) 将 业 务 数 据 写 入 指 定 文 件 区 域c ) 配 置 基 于 F T P 协 议 的 定 期 轮 询 采 集 任 务信 息 流 数 据 流读 取 文 件 数 据b ) 生 成 索 引 、 校 验 文 件d ) 定 期 读 取 索 引 文 件e ) 文 件 有 更 新 , 读 取 文 件f ) 进 行 文 件 校 验 ,
38、 写 入 大 数 据 平 台 存 储图 10 基于 FTP 协议轮询 采集应用场景 基于 FTP协议的定时轮询采集应用过程 见图 10, 应用 过程 如下: a) 业务系统应按照业务需求 生成数据文件, 存储 在 指定 文件区域 ; b) 业务系统应根据校验 算法 SHA1 在 相同目录下生成校验文件 ,校验 文件名称与数据文件相同,文件扩展名为 .SHA1; c) 大数据平台轮询 文件采集服务 配置基于 FTP 协议的 定期轮询采集任务,定期 轮询 采集 文件; d) 大数据平台定期读取解析索引及校验文件内容; e) 如果 业务系统数据文件 出现新增 时 ,大数据 平台 读取数据文件内容;并
39、 且进行文件校验 。 如果文件完整 , 则 将 数据文件写入 大数据 平台中。 6.7.3 应用要求 6.7.3.1 业务系统须先将 业务数据保存为 文件,并设置访问权限。 6.7.3.2 文件数据校验算 法须支持标准的 SHA1进行校验,结果转化为 16 进制 ASCII字符表示。 6.7.3.3 数据文件可通过 FTP协议访问。 6.7.3.4 业务系统生成文件数据时须 同时 生成对应的完整性校验码。 6.7.3.5 具体 文件 拉取 FTP服务 API 接口 参见附录 G.1, 具体实现 逻辑 参见附录 G.2 6.8 文件拉取 NFS 服务 6.8.1 功能要求 Q/GDW 11704
40、 2017 13 文件拉取 NFS服务,应提供通过访问 NFS文件系统,实现将文件信息抽取到大数据平台存储的功能。文件拉取 NFS服务应具备以下主要功能: a) 支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配; b) 支持指定目标文件存储位置、文件名,提供文 件类型转换规则,支持常见类型转换; c) 支持 全量文件采集 ,支持外部数据一次性初始化导入; d) 支持 定时轮询文件采集 , 采集新增的文件, 支持文件列表规则过滤; e) 支持图形管理功能,支持文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文件定时及实时策略配置、文件采集过滤配置。 6.8.2
41、应用场景 6.8.2.1 NFS 全量 文件采集 应用场景 业 务 系 统 大 数 据 平 台 文 件 拉 取 N F S 服 务 大 数 据 平 台 分 布 式 文 件 系 统a ) 将 业 务 数 据 写 入 指 定 文 件 区 域b ) 配 置 N F S 文 件 全 量 采 集 任 务信 息 流 数 据 流读 取 文 件 数 据c ) 运 行 N F S 文 件 全 量 采 集 任 务进 行 文 件 校 验 , 写 入 大 数 据 平 台 存 储图 11 NFS 文件全量 采集应用场景 NFS全量 文件采集 应用场景见图 11,应用 过程 如下: a) 业务系 统应提供初始文件存储位置
42、; b) 大数据 平台 全量 文件采集 提供采集 NFS文件 任务配置,包括 :存储文件位置、采集文件列表方式、是否文件校验、存储目标位置及文件存储命名规则; c) 大数据 平台 运行文件 采集 任务 , 读取 文件存入大数据平台数据存储中 。 6.8.2.2 NFS 文件定时轮询采集应用场景 Q/GDW 11704 2017 14 业 务 系 统 大 数 据 平 台 轮 询 文 件 采 集 服 务 大 数 据 平 台 分 布 式 文 件 系 统a ) 将 业 务 数 据 写 入 指 定 文 件 区 域c ) 配 置 N F S 文 件 定 期 轮 询 采 集 任 务信 息 流 数 据 流读
43、取 文 件 数 据b ) 生 成 索 引 、 校 验 文 件d ) 定 期 读 取 索 引 文 件e ) 文 件 有 更 新 , 读 取 文 件f ) 进 行 文 件 校 验 , 写 入 大 数 据 平 台 存 储图 12 NFS 文件轮询 采集应用场景 NFS文件定时轮询采集应用过程 见图 12,应用 过程 如下: a) 业务系统应按照业务需求 生成数据文件, 存储 在 指定 文件区 域 ; b) 业务系统应根据校验 算法 SHA1 在 相同目录下生成校验文件 ,校验 文件名称与数据文件相同,文件扩展名为 .SHA1; c) 大数据平台轮询 文件采集服务 配置 NFS文件 定期轮询采集任务,
44、定期 轮询 采集 文件; d) 大数据平台定期读取解析索引及校验文件内容; e) 如果 业务系统数据文件 出现新增 时 ,大数据 平台 读取数据文件内容;并 且进行文件校验 。 如果文件完整 , 则 将 数据文件写入 大数据 平台中。 6.8.3 应用要求 6.8.3.1 业务系统须先将 业务数据保存为 文件。 6.8.3.2 文件数据校验算法须支持标准的 SHA1进行校验,结果转化为 16 进制 ASCII字符表示。 6.8.3.3 数据文件可通过 NFS访问。 6.8.3.4 业务系统生成文件数据时须 同时 生成对应的完整性校验码。 6.8.3.5 具体 文件 拉取 HTTP服务 API接
45、口 参见附录 H.1, 具体实现 逻辑 参见附录 H.2 6.9 数据库实时复制 6.9.1 功能要求 数据实时复制 应 提供 业务系统关系型数据库中的结构化数据到大数据平台 数据 存储 的增量低时延复制 功能 。数据实时复制应 具备以下主要功能: a) 支持对 主流的关系型数据库 进行低时延增量复制,至少 包括 Oracle、 MySQL、 PostgreSQL等 关系型数据库 ; 支持 对 数据库 中 常用的数据类型 进行 数据 抽取 , 至少 包括 数值型、字符型、日期/时间型等数据 类型 ; Q/GDW 11704 2017 15 b) 支持秒级时 延的关系型数据库增量复制能力;同时支
46、持在全量复制的基础上,无缝自动切换到增量复制模式; c) 支持关系型 数据库中结构化数据抽取到 大数据 平台关系型数据存储、非关系型数据 存储 、 分布式 文件 存储 、实时数据 存储及消息队列; d) 支持对关系型 数据库数据 的内容和类型 转换操作, 至少 包括 不同数据库差异转换、 字段 类型 格式转换 、时区转换等 操作 ; e) 支持对复制对象的过滤,至少包括模式过滤、表过滤、字段过滤、数据行过滤; f) 支持 数据 复制 操作的 手动触发 、定时调度 及外部触发运行 。定时调度运行应提供多种调度策略,至少 包括 固定 时间间隔运行、 指定 时间点 运行 、 指定 时间范围运行、 一
47、次或 指定次数运行等 策略;外部触发支持标准 WebService接口; g) 应提供中心图形管理界面, 应提供 源端元数据查看、数据复制场景管理 、数据表配置 、 表 字段选择 配置 、字段类型转换配置 、触发机制配置、目标端输出配置、 运行策略配置 、运行监控 等操作 界面 。 6.9.2 非功能性要求 数据库实时 复制 应满足以下非功能性要求: a) 数据 抽取 速度: 不少于 1 万条 /秒;数据 抽取吞吐量: 在千兆带宽的网络条件下 , 数据复制 吞吐量 不少于 80MB/秒; b) 数据抽取时延达到秒级。 6.9.3 应用场景 图 13 数据库 实时 复制应用场景 数据库实时复制应
48、用过程 见图 13, 应用过程 如下: a) 业务 系统关系型数据库服务器上 部署增量捕获程序; b) 增量捕获程序捕获到增量数据通过 TCP或消息队列发送到大数据平台增量接收服务; c) 大数据平台解析增量 数据 ,并将 增量数据存储到 大数据平台中; d) 大数据平台分发增量数据到目标数据存储。 6.9.4 应用要求 6.9.4.1 源数据库必须是 Oracle、 MySQL、 PostgreSQL等 关系型数据库 。 6.9.4.2 源数据库表须包含主键或者唯一索引 。 6.9.4.3 当源端数据库是 Oracle时,源端 数据库 须开启附加日志和强制归档模式。 6.9.4.4 当源端数
49、据库 是 Oracle时,源端 数据库 的在线日志文件、归档日志文件须存放在文件系统上。 6.9.4.5 源端 服务器 必须有 100M可用内存。Q/GDW 11704 2017 16 附 录 A (资料 性附录) 关系型 数据库抽取 应用 关系型 数据库抽取通过大数据平台提供的 Web界面进行操作 , 完成数据接入操作。具体 应用 流程如下: 开 始 1 、 业 务 源 端 数 据 库 配 置 2 、 目 标 端 数 据 库 配 置4 、 传 输 服 务 发 布结 束 5 、 立 即 执 行 传 输是 否 立 即 执 行是6 、 任 务 调 度 配 置 与 执 行否7 、 传 输 日 志 查 看3 、 传 输 配 置说明: 1 业务 源 端 元数据 配置, 根据 业务 源端的 数据库的 IP、 端口、 实例 名、用户名、密码,进行数据源链接配置,并抽取 数据库 用户所属的 表 、字段信息。 2 目标 端数据库配置, 提供抽取目标数据库信息配置,包括目标数据库 名、目标表名、数据导入方式、目标字段与源字段对应关系信息等。 3 数据传输配置,配置源端与目标端字段对应关系、是否抽取、格式化公式等。 4 传输服务发布,将传输服务设置为已发布状态。 5 立即执行传输,手动开启传输立即执行。