1、 GY 中华人民共和国 广播电视和网络视听 行业标准 GY/T 339.2 2020 有线电视网络大数据技术规范 第 2 部分:平台要求 Technical specification for CATVs big data Part 2: Platforms requirements 2020 - 12 - 22 发布 2020 - 12 - 22 实施 国家广播电视总局 发布 GY/T 339.2 2020 I 目 次 前言 . II 引言 . III 1 范围 . 1 2 规范性引用文件 . 1 3 术语和定义 . 1 4 缩略语 . 2 5 概述 . 3 6 数据核心子系统技术要求 .
2、4 6.1 数据采集接入 . 4 6.2 数据存储 . 5 6.3 数据处理 . 7 6.4 数据分析 . 9 6.5 数据展示 . 13 6.6 数据开放 . 14 6.7 资源管理 . 14 7 基础资源子系统技术要求 . 15 8 安全运行子系统技术要求 . 15 9 运行维护子系统技术要求 . 15 9.1 概述 . 15 9.2 运维能力和支撑保障 . 16 9.3 运维操作 . 16 9.4 运维过程管理 . 16 附录 A(资料性) 大数据参考体系架构 . 18 参考文献 . 20 GY/T 339.2 2020 II 前 言 本文件按照 GB/T 1.1 2020标准化工作导则
3、 第 1部分:标准化文件的结构和起草规则的规定 起 草。 本文件为 GY/T 339 有线电视网络大数据技术规范 的第 2部分。 GY/T 339已经发布了以下部分: 第 1 部分:通用要求; 第 2 部分:平台要求; 第 3 部分:数据规则。 请注意本文件的某些内容可能涉及专利。本文件发布机构不承担识别这些专利的责任。 本文件由全国广播电影电视标准化技术委员会( SAC/TC 239)归口。 本文件起草单位:国家广播电视总局广播电视规划院、中国电子技术标准化研究院、广州市诚毅科 技软件开发有限公司、浩鲸云计算科技股份有限公司、北京东方国信科技股份有限公司、华数数字电视 传媒集团有 限公司、国
4、家广播电视总局广播电视科学研究院、重庆有线电视网络股份有限公司、中国广 播电视网络有限公司、北京歌华有线电视网络股份有限公司、广东省广播电视网络股份有限公司、湖北 省广播电视信息网络股份有限公司、河北广电无线传媒有限公司、深圳市天威视讯股份有限公司、陕西 广电网络传媒(集团)股份有限公司、陕西广信新媒体有限责任公司、贵州省广播电视信息网络股份有 限公司、江苏省广电有线信息网络股份有限公司、北京邮电大学、北京海致星图科技有限公司、广西广 电大数据科技有限公司、新疆广电网络股份有限公司。 本文件主要起草人:余英 、韦安明、吴钟乐、张群、刘智、王帅、刘敬玉、唐志燕、李庆国、聂明 杰、邓向冬、曹志、王
5、倩男、赵明、赵士原、欧阳峰、杨旭、沈文、唐永壮、董彬、刘军霞、胡其权、 刘彦鹏、柳涛、杨晨、王洪波、王飞、梅杨、唐昊、陈昕、尹卓、曹燕明、诸葛海标、胡暐宸、张玮、 刘晓敏、王欣然、曹阳、李海波、鞠宏、付晶、赵良福、苟明宇、杨敬一、王季友、刘艺兰、张城瑞、 周传淯、傅力军、王瑶、范斐、孙嘉阳、张琦、陶宛昌、张君、王士刚、杨娟、郑璐、林昕、李文、涂 均、吕燕、刘波、彭宇涛、杨斌。 GY/T 339.2 2020 III 引 言 GY/T 339有线电视网络大数据技术规范规定了有线电视网络大数据技术规范的通用要求,包括 大数据系统和数据服务的功能、性能、接口、安全等方面的要求,适用于有线电视网络大数
6、据系统和业 务的规划、设计、实施、验收、升级改造和运行维护 。 GY/T 339共有三个部分。各部分简述如下。 第 1 部分:通用要求。规定了有线电视网络大数据系统和数据服务的功能、性能、接口、安全 等方面的要求。 第 2 部分:平台要求。规定了有线电视网络大数据平台的结构和技术要求。 第 3 部分:数据规则。 规定了 有线电视网络大数据的数据源、数据内容和数据表达规则。 GY/T 339.2 2020 1 有线电视网络大数据技术规范 第 2 部分:平台要求 1 范围 本文件 规定了 有线电视网络大数据平台的结构和技术要求,还规定了对有线电视网络大数据采集、 接入、存储、处理、分析、展示和开放
7、服务的技术要求 。 本文件适用于有线电视网络数据的采集、接入、存储、处理、分析、展示和开放服务,还适用于指 导有线电视网络运营机构开展大数据平台的规划设计、实施、升级改造和运行维护。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T 22239 2019 信息安全技术 网络安全等级保护基本要求 GB/T 35295 2017 信息技术 大数据 术语 GB/T 35589 2017 信息技术 大数据 技术参考模型 GB 5017
8、4 2017 数据中心设计规范 GY/T 337 2020 广播电视网络安全等级保 护定级指南 GD/J 075 2018 电视收视数据交换接口规范 3 术语和定义 GB/T 35295 2017界定的以及下列术语和定义适用于本文件。 3.1 大数据 big data 具有体量巨大、来源多样、生成极快、多变等特征并且难以用传统数据体系结构有效处理的包含大 量数据集的数据。 来源: GB/T 35295 2017,定义 2.1.1 3.2 大数据参考体系结构 big data reference architecture 一种用作工具以便于对大数据内在的要求、设计结构和运行进行开放性探讨的高层概
9、念模型。 来源: GB/T 35295 2017,定义 2.1.3 3.3 数据中心 data center GY/T 339.2 2020 2 由计算机场站(机房)、机房基础设施、信息系统硬件(物理和虚拟资源)、信息系统软件和信息 资源(数据)等组成的实体。 3.4 大数据平台 big data platform 以大数据参考体系结构为基础的数据中心系统,在本文件中,指集成了大数据采集接入、存储、处 理、分析、共享,以及各类配套功能组件及基础设施的数据处理系统。 3.5 数据采集终端 data collection terminal 一种部署在数据生成节点的、实现数据规范收集汇总和处理的软件
10、组件或实体设备。 3.6 大数据系统 big data system 以大数据参考体系结构为基础的数据处理系统,在本文件中,指由大数据平台、数据源、数据采集 终端、网关,以及相关辅助等功能组件构成的数据处理系统。 来源: GB/T 35295 2017,定义 2.1.14。 3.7 元数据 meta data 一种带有数据类型、编码、名称、业务描述等属性的,可用于描述数据产品特征的数据单元。 3.8 框架 framework 一种由数据的采集、接入、存储、处理、分 析、服务等功能组件构成的集合。 4 缩略语 下列缩略语适用于本文件。 API 应用程序编程接口( Application Prog
11、ramming Interface) BSS 业务支撑系统( Business Support System) CEP 复杂事件处理( Complex Event Processing) CPU 中央处理器( Central Processing Unit) GPU 图形处理器( Graphic Processing Unit) HDD 硬盘驱动器( Hard Disk Drive) IO 输入输出( Input and Output) MPI 消息传递接口 ( Message-Passing-Interface) MSS 管理支撑系统( Management Support System)
12、NoSQL 非关系型的数据库 ( Not only SQL) OLAP 在线分析处理( On-Line Analysis Processing) OSS 运营支撑系统( Operation Support System) RAID 独立磁盘冗余阵列( Redundant Arrays of Independent Drives) SQL 结构化查询语言 ( Structured Query Language) GY/T 339.2 2020 3 SSD 固态盘( Solid State Disk) XML 可扩展 标记语言 ( Extensible Markup Language) 5 概述
13、大数据平台实现对运营机构经营和系统运行维护过程中产生的各类大数据的采集、接入、处理、存 储、分析、展示、共享和管理,为大数据消费者提供数据和服务,以及为运营机构间的数据交换提供统 一接口。图 1采用 GB/T 35589 2017中关于大数据参考体系架构的定义,采用角色、活动、组件等逻辑 构件描述有线电视网络大数据平台(以下简称大数据平台或平台)的组成和业务逻辑。关于大数据参考 体系架构,以及角色、活动、组件的描述见附录 A。 采 集 接 入 框 架 计 算 框 架 大 数 据 平 台 组 件 组 件 活 动 活 动 图 例 : 角 色 角 色 物 理 安 全 物 理 安 全 通 信 安 全
14、通 信 安 全 边 界 安 全 边 界 安 全 计 算 安 全 计 算 安 全 安 全 运 行 业 务 安 全 业 务 安 全 基 础 配 套 机 房 设 施 机 房 设 施 计 算 资 源 计 算 资 源 存 储 资 源 存 储 资 源 网 络 资 源 网 络 资 源 批 量 采 集 批 量 采 集 实 时 采 集 实 时 采 集 输 入 A P I 输 入 A P I 输 出 A P I 输 出 A P I 采 集 与 I O 采 集 监 控 采 集 监 控 采 集 展 示 采 集 展 示 监 控 展 示 采 集 配 置 采 集 配 置 数 据 源 配 置 数 据 源 配 置 配 置 管
15、理 流 处 理 流 处 理 数 据 处 理 内 存 计 算 内 存 计 算 批 处 理 批 处 理 图 计 算 图 计 算 批 流 混 合 计 算 批 流 混 合 计 算 离 线 分 析 离 线 分 析 数 据 分 析 交 互 式 分 析 交 互 式 分 析 流 式 分 析 流 式 分 析 支 撑 组 件 支 撑 组 件 系 统 资 源 管 理 资 源 管 理 框 架 等 保 定 级 等 保 定 级 定 级 测 评 定 级 测 评 等 保 管 理 能 力 建 设 能 力 建 设 例 行 操 作 例 行 操 作 运 维 管 理 运 维 管 理 运 维 管 理 服 务 开 放 数 据 展 示 数
16、据 展 示 服 务 能 力 展 现 / 申 请 / 运 营 服 务 能 力 展 现 / 申 请 / 运 营 大 数 据 应 用 精 准 营 销 精 准 营 销 精 细 服 务 精 细 服 务 精 确 管 理 精 确 管 理 精 益 网 运 精 益 网 运 收 视 评 价 收 视 评 价 门 户 服 务 门 户 服 务 企 业 合 作 数 据 共 享 企 业 合 作 数 据 共 享 . . . 有 线 电 视 网 络 大 数 据 源 M S S 域 数 据 M S S 域 数 据 B S S 域 数 据 B S S 域 数 据 其 他 其 他 O S S 域 数 据 O S S 域 数 据 .
17、. . 数 据 上 报 平 台 侧 数 据 平 台 侧 数 据 元 数 据 格 式 转 换 元 数 据 格 式 转 换 数 据 服 务 框 架 抽 取 抽 取 预 处 理 转 换 转 换 清 洗 清 洗 加 载 加 载 文 件 系 统 文 件 系 统 数 据 存 储 列 式 数 据 库 列 式 数 据 库 关 系 数 据 库 关 系 数 据 库 图 数 据 库 图 数 据 库 数 据 开 放 数 据 开 放 资 源 管 理 子 系 统 子 系 统 运 行 维 护 子 系 统 安 全 运 行 子 系 统 基 础 资 源 子 系 统 数 据 核 心 子 系 统 系 统 安 全 系 统 安 全 元
18、数 据 管 理 数 据 资 源 管 理 网 关 数 据 流 图 1 大数据平台示意图 大数据平台由数据核心子系统、基础资源子系统、安全运行子系统和运行维护子系统组成。 数据核 心子系统是大数据平台的核心组成部分,由数据采集接入、数据存储、数据处理、数据分析,数据服务、 资源管理等框架组成, 负责实现数据输入、计 算处理和输出功能,以及对外开放大数据平台的数据服务 功能。基础资源子系统为大数据平台提供机房、计算资源、存储资源、网络资源等基础服务,安全运行 子系统和运行维护子系统为数据处理提供基本保障。 大数据平台应支持采集、接入、处理运营机构的 BSS、 OSS、 MSS数据,广告、媒资、用户收
19、视行为、 用户体验数据,以及网管、门户网站等数据,具体支持的数据内容如图 2所示。上传到大数据平台的数 据,其格式和交互方式应与 GY/T XXX.1 XXXX的要求相符,例如大数据平台应具备采集接入符合 GD/J 075 2018要求的数据。 GY/T 339.2 2020 4 有线电视网络数据源 B S S 域数据 O S S 域数据 M S S 域数据 其他数据 客户关系管理数据 综合计费账务数据 合作伙伴管理数据 统一用户认证数据 呼叫中心 / 客服数据 服务开通管理数据 综合运维管理数据 网络监控管理数据 综合资源管理数据 人力资源管理数据 采购与仓储管理数据 项目管理数据 财产管理
20、数据 协同办公数据 用户收视行为数据 媒资数据 广告数据 用户体验数据 用户宽带行为数据 用户自助渠道数据 . . . . . . . . . . . 图 2 数据内容 6 数据核心子系统技术要求 6.1 数据采集接入 6.1.1 基本要求 要求如下: a) 应支持结构化数据、半结构化数据、非 结构化 数据 的 批量导入 ; b) 宜支持从文件服务器的多个目录并发导入数据; c) 应 支持 离线 数据 导入功能 , 延时 应 不超过 24h; d) 应支持实时采集 ; e) 应支持定时采集,如可根据预设的频率(小时、天等),自动对选定的数据源进行增量或者全 量采集或导入; f) 应支持对采集对
21、象进行远程配置,如远程设置采集对象的采集频度、采集时间、采集数据量等; g) 应支持采集对象的注册、发布、使用授权、变更、注销等管理; h) 应支持手动控制采集任务的执行过程; i) 宜支持图形化的数据导入配置界面。 6.1.2 输入输出 API 要求如下: a) 应为数据采集终端或网关提供数据输入 API; b) 应为计算框架提供数据输出 API。 6.1.3 采集接入监控 要求如下: a) 应支持监控采集对象的运行状态; b) 应支持监控釆集网络的运行状态,如采集对象所在网络的通断; c) 应支持监控采集任务的执行情况,如支持了解采集任务执行时间、任务进度、已采集数据量等; d) 应支持监
22、控采集服务器 CPU、内存、硬盘和网络适配器的使用情况,如果采集服务器 部署在虚 拟机中,应支持监控虚拟机的 CPU、内存、硬盘和网络适配器的使用情况; GY/T 339.2 2020 5 e) 应支持监控采集任务队列状态; f) 应支持异常情况预警,包括采集任务执行失败、采集节点状态异常、网络异常等; g) 应支持通过任务状态分析、数据完整性分析等方法监控非联网设备的数据采集情况; h) 应支持可定制的监控告警,如提供电子邮件、短信、智能终端 APP 等告警方式; i) 监控应不影响釆集任务的正常执行; j) 宜图形化展示监控数据。 6.1.4 性能要求 要求如下: a) 采集接入实时数据时
23、,应具备实时接入全网实时数据的能力,并在不超过 3s 内 将接收的实时 数据存入大数据平台 的数据存储系统; b) 采集接入 BSS 离线数据时,应具备 1h 内完成当日增量数据接入的能力; c) 采集接入 OSS 离线数据时,应具备 1h 内完成当日增量数据接入的能力; d) 采集接入 MSS 离线数据时,应具备 1h 内完成当日增量数据接入的能力; e) 采集接入其他离线数据时,应具备 1h 内完成当日增量数据接入的能力。 6.2 数据存储 6.2.1 基本要求 要求如下: a) 应支持存储结构化数据、半结构化和非结构化数据; b) 应支持数据上传、数据下载、目录查看、目录创建、目录删除、
24、权限修改等操作; c) 应具备标准、开放的数据访问 API,以支持对数据的操作; d) 应支持对用户访问进行授权; e) 应具备数据加载工具或功能,使系统和关系型数据库、其他文件系统之间可进行数据和文件交 换; f) 应支持存储调度,可按用户计划对存储节点的迁移、扩容、复制、更改、删除等进行自动操作; g) 应支持文件分级存储,如单机级、跨服务器级、跨机柜级、跨数据系统级; h) 应支持为用户设置不同的数据存放策略; i) 应支持为单个用户提供逻辑存储空间; j) 应在多用户之间设置数据隔离机制; k) 应支持在数据源端去重处理; l) 应支持表管理功能; m) 应支持负载均衡,负载均衡切换过
25、程中,业务应不中断; n) 应支持对关系型数据库的不同数据实例制定独立的数据备份策略; o) 宜支持数据自动备份和手动备份; p) 宜支持数据批量更新、删除等数据管理操作; q) 宜支持流式实时数据入库和实时查询。 6.2.2 文件系统 要求如下: a) 应支持文件的上传、下载、读写、复制、移动、删除、访问控制等; b) 应具备文件容错机制和系统高可用机制,包括数据块备份、系统快速恢复等功能; GY/T 339.2 2020 6 c) 应支持文件数据的校验和同步,保证数据的完整性与一致性; d) 应支持分布式文件系统的弹性扩展,支持节点动态添加和删除; e) 应支持压缩和加密存储的数据; f)
26、 应支持快速检索,如数据资源的统一检索、编目、增加和删除; g) 应支持文件的搜索、批量操作、回收站、快照; h) 宜支持小文件打包为大文件集中存储; i) 宜支持存储配额管理,可基于目录存储空间及文件数量进行配额控制; j) 宜支持分级存储的功能,如根据数据的使用热度、时延要求等特性将数据分别存储在 SSD、 HDD 等介质中。 6.2.3 数据库支持 6.2.3.1 关系数据库 要求如下: a) 应支持结构化数据存储机制,实现数据存储的可扩展性; b) 应支持多表关联; c) 应支持数据存储一致性检查,实现数据的完整性与一致性; d) 宜支持行列混合存储,支持表按行或列格式组织存储; e)
27、 宜支持行列转换。 6.2.3.2 列式数据库 要求如下: a) 应支持以键值形式进行数据存储; b) 应支持基于表、列族和列的用户权限管理,权限管理操作包括读、写、创建等; c) 应支持对数据库中的列进行加密; d) 应支持数据的备份与恢复,包括库级别的备份和恢复,并提供备份恢复进展、历史记录查看等 功能; e) 宜支持多级索引; f) 宜支持将多个具有类似功能或存在关联关系的业务表进行合并存储。 6.2.3.3 图数据库 要求如下: a) 应支持由节点及边组成的数据模型; b) 应支持图查询、图遍历、图分析、图挖掘等; c) 应支持主流开发接口; d) 应支持单节点、多节点多层关系扩线查询
28、,支持 广度 优先 、 深度 优先、 最短路径、最优路径遍 历搜索 算法 ; e) 宜支持顶点、属性的继承操作; g) 宜支持长任务异步会话机制。 6.2.4 性能要求 要求如下: a) 列式数据库存储,实时处理响应时间应小于 1s,一亿条记录的批处理响应时间应小于 10s; GY/T 339.2 2020 7 b) 缓存数据库,响应时间应小于 10ms, IO 能力应不小于 10000 条每秒; c) 负载均衡切换时间应小于 10s; d) 存储处理设备 CPU 忙时平均利用率宜小于 70%; e) 存储处理设备内存忙时平均利用率宜小于 80%; f) 底层存储的冗余保护能力应不低于 RAI
29、D“ 0+1”方式; g) 恢复备份系统中的数据库时,恢复时长应小于 6h; h) 备份数据库到备份系统时,每天的备份时间应小于 6h。 6.3 数据处理 6.3.1 基本要求 要求如下: a) 分布式数据库应支持 CPU、内存、 GPU 等异构资源调度和配置; b) 分布式数据库应支持计算框架的水平扩展; c) 应支持任务优先级调度,能定义不同优先级的任务,使得后启动的高优先级任务能够获取运行 中的低优先级任务释放的资源; d) 应支持对全局资源的集中管理; e) 应支持静态资源分配策略和动态资源分配策略; f) 分布式数据库应提供与组织相匹配的层次结构,应支持多层次的队列资源管理,队列的资
30、源应 严格隔离, 队列获得的资源应不超过分配给该队列的上限; g) 分布式数据库应支持弹性资源与抢占,即当有空闲资源时,租户可以使用超过其配置资源,以 提高系统整体的吞吐量;当系统繁忙,其他租户无法拿到配置应得的资源时,当前租户超过配 置部分的资源可以被其他租户抢占,以保证各租户的服务质量; h) 分布式数据库应支持资源管理、作业调度和数据加载,以及各种分布式计算框架的调度; i) 分布式数据库宜支持按照任务间的依赖关系自动调度任务,以提高处理系统的自动化程度; j) 分布式数据库宜支持根据作业需求动态分配计算资源,自动管理回收资源; k) 分布式数据库 宜支持自动完成作业调度,并支持作业内多
31、任务以无回路有向图形式描述的依赖 关系; l) 分布式数据库宜支持复杂任务的调度,如支持深度学习的训练、 MPI 任务。 6.3.2 批处理 要求如下: a) 应支持多种数据类型的离线分析,包括结构化、半结构化、非结构化数据; b) 应支持离线计算任务进度与状态的实时上报; c) 应支持多节点离线任务联动执行; d) 应支持多种语言分析任务的开发接口; e) 应支持作业调度; f) 应支持分散 -聚集的处理方式; g) 应支持作为一个批处理计算框架运行在分布式资源管理之上。 6.3.3 流处理 要求如下: GY/T 339.2 2020 8 a) 应支持从数据源中获得实时消息数据,完成高吞 吐
32、、低延迟的实时计算,并将结果输出到消息 队列或者进行持久化; b) 应支持对消息处理任务进行创建、浏览、中止、激活、去激活等操作,并记录用户级别的操作 到审计日志中; c) 应支持创建滑动窗口方式的实时分析任务,其时间窗口大小应可调; d) 应支持通过 SQL 或者类 SQL 接口对数据进行操作; e) 应支持容错性,在出现故障时具备容错处理机制。 6.3.4 图计算 要求如下: a) 应内置图数据查询类 API; b) 应支持以同步计算模型或异步计算模型的迭代算法; c) 应支持明细数据全量导入、增量导入以及自定义导入; d) 应支持内存计算和索引,支持在线图分析和查询; e) 应支持基于属
33、性图模型的图数据表达,包含结点 /边上的标签和属性类型定义; f) 应支持内置常用图指标计算功能,以描述图的拓扑结构特征; g) 应支持实现水平扩展的分布式图计算和查询; h) 应支持图数据的并发查询。 6.3.5 内存计算 要求如下: a) 应支持基于内存的分布式计算; b) 应支持水平扩展; c) 应支持自动负载均衡; d) 应支持多种数据类型的离线分析,包括结构化数据、半结构化数据、非结构化数据的离线分析; e) 宜支持高度抽象算子,以快速构建分布式数据处理应用; f) 宜支持标准 SQL 语法; g) 宜支持与非关系型数据库对接,以在不迁移数据的前提下读取非关系型 数据库中的数据并进行
34、 计算。 6.3.6 批流融合计算 要求如下: a) 应支持批流融合统一查询 SQL 语言; b) 应支持多种场景下的流式 SQL,如位置信息分析等; c) 应支持机器学习、图计算; d) 应支持时间窗口算法,包括跳跃窗口、滑动窗口等; e) 宜支持基于 SQL 语言的批、流数据模式识别; f) 宜提供批流融合计算引擎; g) 宜支持事件驱动的流处理,以降低处理延迟; h) 宜支持处理乱序事件流、窗口计算、 CEP 等; i) 宜支持迭代处理。 6.3.7 性能要求 GY/T 339.2 2020 9 要求如下: a) 批处理集群容量的水平扩展能力应不小于 1000 个节点; b) 在正常情况
35、下,数据处理系统文件系统的 IO 请求响应时间应小于 500ms; c) 在正常情况下,数据处理系统处理消息的响应延迟应小于 500ms。 6.4 数据分析 6.4.1 概述 数据分析过程由数据预处理、支撑能力、分析与挖掘过程、流程编排环节组成。 通过数据分析过程, 将数据信息转换为知识。数据分析的基本过程包括:对原始数据进行预处理,加载数据到分析系统,通 过预置的分析工具库,执行检索査询、机器学习、统计分析、可视化等操作。一个完整的数据分析系统, 通常还包括配置管理和任务流程编排功能。 6.4.2 数据预处理 6.4.2.1 数据抽取 要求如下: a) 应支持按照需求抽取存放在文件系统、数据
36、库中的文件或数据; b) 对结构化、半结构化、非结构化数据,应支持不同的抽取方法; c) 应支持全量抽取及增量抽取模式; d) 应支持主动抽取和被动追加方法; e) 应支持定时批量抽取; f) 宜支持分布式数据抽取,数据抽取过程支持负载均衡。 6.4.2.2 数据清洗 要求如下: a) 应支持检査数据一致性,支持清洗掉不一致的数据; b) 应支持处理无效值,包括对无效值的删除、修正等; c) 应支持处理缺失值,包括对缺失值的填充或缺失值对应数据条目的删除等; d) 应支持处理重复值,包括对重复数据值的合并或删除等; e) 应支持对比清洗前后的数 据,方便使用者检验清洗效果; f) 宜支持逻辑矛
37、盾和关联性验证,支持清洗不合理的数据。 6.4.2.3 数据转换 要求如下: a) 应支持对清洗后的数据按照分析模块的要求进行转换操作,支持结构化数据的列转换、行转换 和表转换; b) 宜支持非结构化数据、半结构化数据的结构化处理; c) 宜支持对文本、网页类数据的规范化处理,将文档类数据转化成单一规范形式; d) 宜支持对语音 /音频数据的识别处理,将语音的词汇内容转换为计算机可读的输入; e) 宜支持对图片中的内容转换为字符文本,支持提取图像信息。 6.4.2.4 数据加载 要求如下: GY/T 339.2 2020 10 a) 应支持把经过清洗和转换之后的数据加载到分析系统,为分析功能模
38、块提供数据。 b) 宜支持全量加载,即按照加载目标结构,将转换过的数据输入到目标结构中。若目标结构中已 存在数据,则装入新数据进行覆盖。 c) 宜支持增量加载,即如果目标结构中已经存在数据,在保存已有数据的基础上増加新的数据。 当输入的数据记录与已经存在的记录重复时,则丢弃新输入的数据,或将输入的记录作为副本 进行增加。 d) 应支持实时加载或者批量加载。 6.4.3 分析支撑 6.4.3.1 检索查询 6.4.3.1.1 查询接口 要求如下: a) 应支持标准的数据库查询接口; b) 应支持 RESTful API 查询接口。 6.4.3.1.2 查询 优化 要求如下: a) 应支持基于规则
39、的查询优化; b) 应支持建立数据索引,提高查询效率; c) 应支持数据分片和多副本技术,优化查询速度; d) 应支持通过 SQL 进行复杂条件高并发查询; e) 应支持精确査询和模糊査询; f) 宜支持二级索引。 6.4.3.2 机器学习 6.4.3.2.1 数据管理 要求如下: a) 应支持将输入数据划分为训练集、验证集和测试集; b) 应支持导入和导出机器学习模型,支持导入训练和验证过的模型到分析系统中,以及导出训练 所得的模型; c) 宜支持多种数据模型的融合应用。 6.4.3.2.2 算法 要求如下: a) 应支持回归与分类算法; b) 应支持聚类算法; c) 应支持协同过滤算法;
40、d) 应 支持降维算法; e) 应支持频繁模式挖掘算法; f) 宜具备机器学习流程的其他组件,如特征提取、特征转换、特征选择、模型选择、交叉验证、 模型调优等; GY/T 339.2 2020 11 g) 宜支持通过二次开发增加新的指令算子。 6.4.3.2.3 任务管理 要求如下: a) 应支持对不同的机器学习算法编排不同的数据分析流程,以得到适用于特定分析场景的机器学 习模型; b) 宜支持对机器学习任务进行分布式计算。 6.4.3.2.4 模型评估 宜提供用于评估算法模型的模块。 6.4.3.3 统计分析 要求如下: a) 应支持基本的数值分析统计,如最大值、最小值、求和、总数等统计量;
41、 b) 应支持数据集中趋势的分析统计,如平均数、中位数、众数等统计量; c) 应支持数据离散程度的分析统计,如极差、方差、标准差等统计量; d) 应支持分析多个随机变量的关系,如协方差、相关系数等统计量; e) 宜支持自定义统计分析模板,并可保存常用的分析方案为模板。 6.4.3.4 可视化 要求如下: a) 应支持将常见的数据源的格式作为输入; b) 应支持可视化展示高维数据; c) 具备可视化工具库,要求如下: 1) 应支持柱状图; 2) 应支持饼图; 3) 应支持折线图; 4) 应支持表格; 5) 宜支持散点图; 6) 宜支持雷达图; 7) 宜支持网络图; 8) 宜支持时间线; 9) 宜
42、支持热力图; 10) 宜支持地图; 11) 宜 支持 桑基图; 12) 宜支持 双轴图 ; 13) 宜支持 箱线图 ; 14) 宜支持与算法模型评估相关的可视化工具库。 6.4.4 数据分析 6.4.4.1 分析模式 6.4.4.1.1 离线数据分析 GY/T 339.2 2020 12 要求如下: a) 应支持结构化查询语言; b) 应支持对离线数据的分布式分析; c) 应具备支持第三方应用的标准接口; d) 应支持分布式计算或并行计算等计算框架; e) 应支持对海量工作任务的切分和分布式调度; f) 应支持集成第三方机器学习算法库; g) 宜支持使用内存或 SSD 存储作为缓存; h) 宜
43、支持对文本类、音视频类以及图像类数据的分析; i) 宜支持对关系型数据库和大数据存储系统中的数据源进行交叉查询、聚合、关联操作; j) 宜支持使用 GPU 对特定算法进行加速。 6.4.4.1.2 流数据分析 要求如下: a) 应支持按时间切片后进行批量处理; b) 应支持基于事件触发的流式处理; c) 应支持关于实时流的数据统计; d) 应支持流式数据的排序; e) 应支持数据流与静态表之间的关联; f) 应支持多个数据流的关联处理; g) 采用滑动窗口方式的实时分析任务,其时间窗口大小应可调; h) 宜支持实时数据的分组; i) 宜支持分析任务优先级调度; j) 宜支持对文本类、音视频类以及图像类数据的分析。 6.4.4.1.3 交互式联机分析 要求如下: a) 应支持通