互联网金融公司大数据分析平台总体架构.ppt

上传人:dealItalian200 文档编号:384759 上传时间:2018-10-10 格式:PPT 页数:81 大小:3.88MB
下载 相关 举报
互联网金融公司大数据分析平台总体架构.ppt_第1页
第1页 / 共81页
互联网金融公司大数据分析平台总体架构.ppt_第2页
第2页 / 共81页
互联网金融公司大数据分析平台总体架构.ppt_第3页
第3页 / 共81页
互联网金融公司大数据分析平台总体架构.ppt_第4页
第4页 / 共81页
互联网金融公司大数据分析平台总体架构.ppt_第5页
第5页 / 共81页
亲,该文档总共81页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、金融集团大数据分析平台 总体架构,议程,大数据分析平台综述,1,大数据分析平台总体架构,2,大数据分析平台演进路线,3,大数据分析平台一期实施重点,4,附录:数据质量管理平台,5,金融集团管理分析类应用建设现状基本分析,关注的内容,存在的问题,基本的现状,商城数据仓库累积数据没有充分利用 缺乏面向整个金融集团的统一、完整的数据视图; 缺乏支撑金融集团日常业务运转的风险评估体系; 缺乏金融集团客户360度视图,客户行为分析和预测无法实现; 缺乏面向金融业务运营管理的关键绩效指标体系; ,商城已建立面向整个零售业务的数据仓库,整合了前台业务运营数据和后台管理数据,建立了面向零售的管理分析应用; 金

2、融集团已开展供应链金融、人人贷和保理等多种业务,积累了一定量的业务数据,同时业务人员也从客户管理、风险评级和经营规模预测等方面,提出了大量分析预测需求; ,数据平台、数据应用、数据管控,基础数据平台和BI应用建设是未来一段时间的重点!,数据平台整体架构;数据平台各层建设的标准;较成熟的金融业数据模型;数据质量治理;元数据管理;数据标准建设数据整合;数据应用建设;数据平台的软硬环境 ,大数据分析平台建设目标,外部非结构化数据,统一制定目标和分析模型,自定义报表工具 行列的简单定义方式,多种格式报表,集团决策层,集团职能管控层,各级业务操作层,关注集团主要经营指标,业务人员使用BI应用实现业务协作

3、和创新,BI 分析工具,供应链金融系统,POP系统,其他业务系统,云数据推送平台已实现了主要零售及金融业务系统数据清洗、整合,为未来金融集团数据平台提供了丰富的数据源。,通过数据平台和BI应用建设,金融集团将搭建统一的大数据共享和分析平台,对各类业务进行前瞻性预测及分析,为集团各层次用户提供统一的决策分析支持,提升数据共享与流转能力,采购管理系统,查看职能部门的业务经营情况,大数据分析平台建设预期收益,2.加强业务协作,实现分散在供应链金融、人人贷、保理等各个业务系统中的数据在数据平台中的集中和整合,建立单一的产品、客户等数据的企业级视图,有效促进业务的集成和协作,并为企业级分析、交叉销售提供

4、基础,3.促进业务创新,金融集团业务人员可以基于明细、可信的数据,进行多维分析和数据挖掘,为金融业务创新(客户服务创新、产品创新等)创造了有利条件,4.提升建设效率,通过数据平台对数据进行集中,为管理分析、挖掘预测类等系统提供一致的数据基础,改变现有系统数据来源多、数据处理复杂的现状,实现应用系统建设模式的转变,提升相关IT系统的建设和运行效率,5.改善数据质量,从中长期看,数据仓库对金融集团分散在各个业务系统中的数据整合、清洗,有助于企业整体数据质量的改善,提高的数据的实用性,通过数据平台实现数据集中,确保金融集团各级部门均可在保证数据隐私和安全的前提下使用数据,充分发挥数据作为企业重要资产

5、的业务价值,1.实现数据共享,议程,大数据分析平台综述,1,大数据分析平台总体架构,2,大数据分析平台演进路线,3,大数据分析平台一期实施重点,4,附录:数据质量管理平台,5,大数据分析平台总体架构,历史数 据查询,数据交换平台,应用集市数据区,商城零售,供应链金融,人人贷系统,基金系统,系统,企业内外部半结构化、非结构化数据,大数据交换组件,数据库数据交换组件,数据区数据交换组件,大数据区,沙盘演练数据区,实时数据区,客户主题,协议主题,产品主题,业务沙盘演练,数据增 值产品,零售数据,供应链数据,增值产 品数据区,主题数据区, ,用户访问层,客户汇总,账户汇总,机构汇总, ,社交媒体,移动

6、互联,用户评价,访问日志,处理后大数据,待处理大数据,流程调度,监控告警,数据标准,数据质量,元数据,数据安全,流程调度平台,数据管控平台,流程调度层,实时数 据查询,客户管理,财务管理,外部用户,贴源数据区,内部管理分析,内部用户,历史归档数据区,IT人员,风险管理,大数据分析平台总体架构数据产生层,内部业务系统产生的结构化数据 商城日常零售业务处理过程中产生的结构化数据,存储在关系型数据库中,如:供应商信息、采购信息、商品信息、销售流水 金融集团日常业务处理过程中产生的结构化数据,存储在关系型数据库中,如:客户信息、账户信息、金融产品信息、交易流水 企业内部非结构化数据 日常业务处理过程中

7、产生的非结构化数据,存储形式多样,主要包括用户访问日志、用户投诉、用户点评 企业外部数据 企业外部数据以非结构化为主,主要包括国家政策法规、论坛等互联网信息、地理位置等移动信息、微博等社交媒体信息,源数据内容,在本次项目实施中将采用以增量为主、全量为辅结合的方式获取源数据 商城和金融集团业务系统的数据 增量数据识别、获取由云数据推送平台负责,云数据推送平台采用分析、对比源系统日志方式实现 对于无法通过上述方式获取增量的源系统数据,则采用某一个时间范围内的全部数据作为增量 初始数据加载均采用全量模式,源数据增量,大数据分析平台总体架构数据交换层,数据交换层设计目标,传输组件是根据数据源存储的不同

8、分类而设计的,本质是通过分析数据存储结构和数据存储库的特点来针对性的设计工具,以追求卓越的性能,数据区数据交换组件,数据库数据交换组件,大数据交换组件,金融集团系统,数据服务层,外部大数据,商城系统,Hadoop元数据,云数据推送平台,数据平台导入临时区,数据平台导出临时区,NAS 存储,ETL程序区,大数据分析平台总体架构数据交换层NAS存储,Hadoop集群元数据区,数据平台ETL数据处理程序区,数据平台临时数据区,存储数据平台各个Hadoop集群的元数据信息,如:HDFS文件系统元数据,集团数据交换平台每日获取运输局推送平台提供的业务系统变化数据,暂存在NAS临时数据区 金融数据平台加工

9、计算结果返回给业务系统,暂存在NAS临时数据区,数据平台ETL加工处理程序(数据压缩、数据加载、各数据数据处理等)统一存储在NAS集群指定目录,各接口服务器通过文件系统Link建立映射,大数据分析平台总体架构数据交换层大数据交换组件,企业内部非结构化、半结构化数据,如:音频、视频、邮件、Office文档、抵押品扫描件等 企业外部非结构化、半结构化数据,如:微博、贴吧、论坛、用户点击流、用户移动位置等,批量采集:大数据源以SFTP协议批量传输数据文件 在线访问:开发Java或C应用,调用大据源API,或以网络平台爬虫方式抓取源系统非结构化、半结构化数据,组件以实时和批量两种模式实现下列功能: 数

10、据采集 数据传输到数据交换平台(接口服务器)NAS指定目录 存储数据到数据平台大数据区指定HDFS目录,定时抽取用户访问日志,加载到数据平台大数据区HDFS指定目录,MR程序加工处理 开发网络爬虫程序,扫描用户微博,抓取用户微博内容,社交圈信息,存入大数据区,大数据分析平台总体架构数据交换层数据库数据交换组件,企业内部业务系统产生的结构化数据,包括两大来源: 商城零售业务数据,数据存储在Oracle、SQLServer、MySQL和MongoDB四类数据库 金融集团互联网金融业务数据,数据存储在MySQL数据库,Perl程序 数据采集,调用Perl文件模块相关函数,轮询指定目录,获取数据文件

11、数据核查,Perl执行文件级数据质量检查 数据加载,调用Hive Load数据命令,加载到数据平台临时数据区的Hive Table,组件以实时和批量模式实现下列功能: 数据采集,轮询NAS集群指定目录,获取数据文件(LZO压缩) 数据核查,对数据文件进行质量校验 数据加载,加载数据到临时数据区,云数据推送平台连接供应链金融系统数据库,分析供应链金融MySQL数据库日志,识别增量数据,存储到金融平台NAS存储的指定目录,金融平台加载数据文件到数据平台临时区Hive表,大数据分析平台总体架构数据交换层数据区数据交换组件,数据平台计算层各数据区 贴源数据区 主题数据区 集市数据区 沙盘数据区 大数据

12、区 归档数据区,Sqoop实现集市数据区与数据平台其他Hadoop数据区的数据交换 Hadoop 命令、Hive外部表、MR程序实现数据平台Hadoop数据区间的数据交换,组件以批量方式实现下列数据交换功能: 贴源数据区和主题数据区到集市数据区 大数据区到主题数据区和集市数据区 主题数据区、贴源数据区、集市数据区到沙盘数据区 各个数据区数据归档,数据集市的数据按照据生命周期规划,统一将过期数据归档到历史数据归档区,大数据分析平台总体架构流程调度层批量处理流程,批量数据处理由流程调度层部署的自定义开发WorkFlow组件调度运行 整个流程主要完成如下工作: 获取业务系统结构化数据,存入临时数据区

13、 获取企业内外部非结构化数据,并进行结构化处理,存入主题或集市数据区 按照贴源数据模型整合数据(标准化、数据更新/追加) 按照主题数据模型整合数据并生成汇总 数据加工计算后,结果交付到数据集市,支持分析类应用,大数据分析平台总体架构流程调度层实时数据处理流程,实时数据处理强调的是实时或准实时获取并处理数据,通常采取消息队列等技术构建“数据流” 整个处理流程由流程调度层部署的自定义开发WorkFlow组件调度运行 整个流程主要完成如下工作: 通过数据库数据交换组件获取增量数据,加载到实时数据区 通过大数据交换组件获取非结构化数据,并利用Storm处理数据,加载到实时数据区 针对实时数据区数据执行

14、标准化处理和贴源整合,大数据分析平台总体架构流程调度层归档数据处理流程,数据归档的对象包括业务系统数据文件、贴源数据区数据、主题数据区数据、大数据区数据和集市数据区数据 数据按照生命周期规划存储到归档区Hadoop集群,归档后原数据区删除此数据 整个处理流程由流程调度层部署的自定义开发WorkFlow组件调度运行 整个流程主要完成如下工作: 数据文件通过HDFS命令行copyfromlocal进行归档 贴源、主题和大数据区通过HDFS命令行distcp或自定义开发的MR程序执行归档 集市数据区通过Sqoop或数据库提供的Hadoop集成技术(如:外部表)执行归档,大数据分析平台总体架构数据存储

15、层,业务系统前日增量数据 缓存数据,支持后续ELT数据处理,数据内容 主要用途,数据模型 保留周期,用户 访问模式,工作负载,平台要求,贴源数据模型 保存最近7天数据,贴源数据区和主题数据区批量作业访问 无最终用户访问,I/O敏感,连续小批量的数据抽取和加载 少量量数据使用Hive的Load命令,大量数据使用MR程序,与主题区/贴源区/集市区构成一个Hadoop集群(Hive) 无单点故障,724小时+非工作日有限停机,主题数据区、集市数据区和沙盘演练数据区批量作业访问 无最终用户访问,I/O敏感,日终批量ETL 以ELT形式通过Hive SQL执行,与主题区/贴源区/集市区构成一个Hadoo

16、p集群(Hive) 无单点故障,724小时+非工作日有限停机,贴源数据模型 不保存历史,业务系统前日快照数据和一段时间的流水数据 数据标准化,为后续主题模型、集市和沙盘演练提供数据,临时数据区,贴源数据区,大数据分析平台总体架构数据存储层(续),企业内外部非结构化、半结构化数据 采集并存储数据,进行结构化处理,最终得到结构化数据,数据内容 主要用途,数据模型 保留周期,用户 访问模式,工作负载,平台要求,数据按照HDFS文件存储 建议保留1年,集市区/沙盘区/增值产品区/主题区/归档区批量作业访问 少量高级业务人员进行大数据分析,MapReduce 分布式计算,半/非结构化数据的结构化处理(包

17、括文本检索、语义分词、图像识别、音频识别等),与主题区/贴源区构成一个Hadoop集群(HDFS) 无单点故障,724小时+非工作日有限停机,集市区/沙盘区/增值产品区/主题区/高时效区批量作业访问 业务人员执行历史数据查询,MapReduce分布式计算,HDFS命令实现Hadoop集群内归档,Sqoop实现数据库归档,通过Hive提供历史查询,独立的Hadoop集群(HDFS+Hive) 无单点故障,724小时+非工作日有限停机,数据按照HDFS文件存储 数据文件按照数据区划分目录,建议保留7年,其他各数据区历史数据 按数据生命周期规划归档平台过期数据,支撑历史数据查询,大数据区,历史归档数

18、据区,大数据分析平台总体架构数据存储层(续),业务系统历史明细数据 打破业务条线整合数据,数据内容 主要用途,数据模型 保留周期,用户 访问模式,工作负载,可用性要求,第三范式模型 保留长期历史,需要根据主题细化,主题区/集市区/沙盘区/增值产品区/归档区批量作业访问 少量高级业务人员进行灵活查询、挖掘预测,I/O敏感,日终批量ETL (合并、拉链、关联、汇总等等) 以ELT形式通过Hive SQL执行,复杂处理使用MR定制UDF,与大数据区/贴源区构成一个Hadoop集群(Hive) 无单点故障, 724小时+非工作日有限停机,集市区/沙盘区/增值产品区/归档区批量作业访问 少量高级业务人员

19、进行灵活查询、挖掘预测,I/O敏感,日终批量ETL (连接、聚合、汇总等等) 以ELT形式通过Hive SQL执行,复杂处理使用MR定制UDF,与大数据区/贴源区构成一个Hadoop集群(Hive) 无单点故障,724小时+非工作日有限停机,逆范式宽表 依赖于集市数据需求,对主题数据预加工后的结果数据 针对应用需求进行数据预连接、预汇总,为集市提供数据,主题数据区明细,主题数据区汇总,大数据分析平台总体架构数据存储层(续),按沙盘演练需求,准备的明细或汇总业务数据 为数据科学家的挖掘预测操作提供数据服务,数据内容 主要用途,数据模型 保留周期,用户 访问模式,工作负载,可用性要求,模型依赖于沙

20、盘演练需求 在整个沙盘演练周期内保留,集市区/沙盘区/归档区批量作业访问 少量高级业务人员进行灵活查询、挖掘预测,I/O敏感,终批量ETL (合并、拉链、关联、汇总等等) 以ELT形式通过Hive SQL执行,复杂处理使用MR定制UDF,独立的Hadoop集群(HDFS) 无单点故障,724小时+非工作日有限停机,沙盘区/归档区批量作业访问 决策人员、管理人员、业务人员访问,I/O敏感型,BI工具提交的报表、查询、分析SQL命令和日终批量ETL(汇总、聚集等操作,以ELT形式通过SQL执行),基于开放平台的完全无共享 MPP 数据库集群+内存数据库 无单点故障,724小时+非工作日有限停机,维

21、度数据模型 依赖业务需求,面向企业内部管理分析类应用需求的汇总数据 为客户、运营等管理分析主题和数据增值产品提供数据服务,沙盘演练数据区,应用集市数据区,大数据分析平台总体架构数据存储层(续),根据外部用户的数据使用需求数据平台加工计算的结果数据 为部署在数据平台上的企业内外部增值产品提供数据支持,数据内容 主要用途,数据模型 保留周期,用户 访问模式,工作负载,可用性要求,应用模型,依赖于用户业务需求 依赖于用户业务需求,企业外部人员,如:京东客户 通过自己部署在Paas平台上的应用访问,I/O敏感型,BI工具提交的报表、查询、分析SQL命令和日终批量ETL(汇总、聚集等操作,以ELT形式通

22、过SQL执行),独立的Paas平台,部署Hadoop集群 无单点故障,724小时+非工作日有限停机,企业业务人员 高时效、高并发、高可靠性的联机交易类查询,CPU敏感,BI工具或业务系统高并发、高时效查询,以及准实时连续ETL处理+SQL批量处理,独立的内存数据库集群 无单点故障,36524小时不停机,贴源数据模型 依赖用户业务需求,面向应用的业务系统快照数据和一段时间的交易流水 为实时获准实时分析应用提供数据服务,增值产品数据区,实时数据区,大数据分析平台总体架构数据存储层数据流,数据集成层,操作型聚合数据,临时数据区,实时数据区,公共汇总数据,主题明细数据,结构化数据,非结构化&半结构化数

23、据,沙盘演练数据区,实验室数据,集市数据区,POP自营数据,贴源数据区,金融业务数据,主题数据区,客户管理集市,财务管理集市,运营管理集市,风险管理集市,集市,大物流系统数据,供应链系统数据,财务审计数据,财务研发数据,操作型明细据,归档数据区,大数据区,源系统 数据文件,贴源数据,主题数据,集市数据,高时效 数据,大数据,增值产品数据区,大数据分析平台总体架构数据应用层,大数据 平台应用,针对公检法查询需求、内外部审计需求和最终用户的历史交易查询需求,以贴源存储的归档数据为基础,实现的查询类应用 历史查询类应用通常使用BI 工具或自主开发实现,客户经理等最终业务人员针对当前业务的发生(如:用

24、户交易、用户访问日志),进行实时查询、分析的应用,管理分析类应用主要实现了集团客户管理、运营管理、财务管理、风险管理、监管信息披露五大分析体系功能 管理分析类应用通常采用套装软件和BI工具(MicroStrategy等)实现,业务人员根据业务需求或自己对业务的理解,设计计算模型,准备各类明细或汇总数据,导入模型运算,验证业务结果 沙盘演练类应用通常使用R语言在Hadoop分布式体系下实现,金融集团数据科学家根据自己对业务需求的理解或者对市场的判断,设计并运行模型,发掘数据价值,并封装成商业产品 数据增值产品通常采用R语言和BI工具实现,面向企业内外部用户,管理分析类应用,1,沙盘演练类应用,3

25、,历史查询类应用,4,高时效类分析应用,5,数据增值类产品,2,实时分析类应用通常使用CEP、ESB等技术实现,大数据分析平台总体架构平台发展不同阶段对应应用,工作负载复杂度,大数据平台发展阶段划分,操作为主阶段 什么正在发生?,动态数据仓库阶段 让正确的事情发生!,分析为主阶段 为什么会发生,报表为主阶段 发生了什么,预测为主阶段 将会发生什么?,批量 随机查询 数据分析 持续更新加载/短查询 基于事件的动态触发,数据量增长 用户数增长 查询复杂度增长 ETL处理复杂度增长,管理分析类应用 历史查询类应用,实时分析类应用,大数据分析平台总体架构管理分析类应用,总账分析 资产负债表分析 损益表

26、分析 现金流量表分析 财务指标分析 盈利分析 机构贡献度 产品贡献度 客户细分贡献度 渠道绩效 资产负债分析 主要指标报告,如: 净利息收入、净收入、 净现值、市场价值等 头寸报告 现金流报告 风险价值(VaR)计算 财务预算与计划 财务预算 财务计划执行监控 执行过程分析 年末财务计划执行分析 预测与场景分析 业务规模预测 收益预测 ,领导管理驾驶舱 机构绩效考核 客户经理考核 客户经理工作量评估 客户经理服务客户收益评估 产品绩效考核 业务量考核 供应链金融业务 人人贷业务 保理业务 基金业务 其它中间业务 渠道成本与收益 ,风险监控报表/信息披露 流动性报表 利率敏感性报表 资本充足率报

27、表 市场风险 市场风险暴露值 流动性管理、利率管理 信用风险 信用风险暴露值计算 信用风险控制(贷前控制、贷中监控、贷后分析) 操作风险 异常交易预警 后督差错检查 防欺诈/反洗钱 定义欺诈交易模型 可能性欺诈交易预警 欺诈交易分布分析 全面风险管理 ,目前监管机构没有明确要求,客户单一视图 公司客户信息管理 个人客户信息管理 同业客户信息管理 目标客户搜索 重点客户 关怀客户 风险客户 异动客户 客户细分 个人客户细分 公司客户细分 客户行为分析 客户轮廓分析 产品交叉销售分析 百分比分析 渠道偏好分析 营销活动管理 营销活动规划 营销活动定义 营销活动执行 营销活动苹果 营销活动自动化 渠

28、道接口与集成 流程自动化 ,客户管理,运营管理,财务管理,风险管理,监管披露,示例,大数据分析平台总体架构数据访问层,即席查询:通过即席查询工具或手工书写SQL语句,完成业务信息的即席查看 多维分析:从多个维度灵活组合对目标值进行分析,常见功能包括上下钻取、透明钻取、旋转、分页、层钻、跨维钻取等 主动问题发现:通过事件触发、规则匹配等方式发现企业运营中的问题,通过手机、邮件等方式报警,决策层,管理层,业务人员,即席查询,静态报表,多维分析,仪表盘,挖掘预测,仪表盘:通过仪表盘及其它展现方式对企业关键绩效指标进行展示,为领导层决策提供直观的数据支持 静态报表:按照预先定义格式,批处理报表,在线查

29、询报表等 Office集成:将分析应用嵌入到Office界面中,利用Office的方便、易用特性,降低用户使用难度,问题发现,Office 集成,Web服务,挖掘预测:使用专业的软件工具,通过数理统计等高级统计分析算法,分析结构化、非结构化数据,通过数据模型去挖掘隐藏在数据中的价值,数据科学家,业务系统,Web 服务:将分析应用的功能发布为Web服务,注册在企业服务总线上,供其它业务系统或分析应用调用,获取分析结果,多种展现形式满足各层级用户及应用系统使用需求,大数据分析平台总体架构数据管控层,金融数据管控体系涵盖组织架构、评价与考核、管控流程、管控平台四个域。,数据标准管理,数据质量管理,元

30、数据管理,工作流管理,组织,数据与信息标准化委员会,数据管理人,数据所有人,数据生产人,数据使用人,IT 支持团队,考核指标,责任评价,标准执行评价,政策执行评价,评价标准,数据类型,数据格式,业务分类,真实性定义,及时性定义,完整性定义,技术元数据,流程,评价与考核流程,考核指标 建立/维护流程,标准建立/维护流程,组织建立/维护流程,评价 与 考核,业务含义,一致性定义,数据认责,平台,安全等级,权限定义,业务元数据,管理元数据,数据全生命周期,数据安全管理,数据标准,数据质量,元数据,数据安全,审计定义,保留策略,大数据分析平台总体架构数据管控体系内部运转机制,管控组织 数据管控委员会

31、数据所有人 数据认责人 IT支持 ,管控流程数据接入流程 数据变更流程 数据授权流程 数据退役流程 标准/政策制定流程 评价考核流程 ,评价与考核 标准(数据标准、质量要求、安全要求) 遵守标准所需要的政策 政策与标准遵从考评定义 ,数据产生者 数据使用者 ,流程支撑,流程支撑,制 定,管控平台,工具 支撑,明确了数据管控过程中的组织结构、角色、职责等。管控组织除了要负责制定数据标准、质量、安全等要求外,还需要负责制定管控的相关流程和评价考核指标等内容。,考 评,制定,通过建立一些定性或定量的数据管控评价考核指标,去评估及考核数据相关责任人职责履行情况、数据管控标准及数据政策的执行情况等。,规

32、范了数据管控过程中,各个环节日常任务处理的运作模式,例如数据定义如何变更、数据冲突如何协调等。,采用专门的技术平台支撑管控流程的自动化,发布管控组织制定的一些相关标准和规范,及时反映管控过程中存在的一些问题等。,管控综合管理 标准/规范管理 流程管理 考核仪表盘 ,元数据管理 业务元数据管理 技术元数据管理 管理元数据分析 ,数据质量管理 稽核规则管理 数据稽核 质量报告 ,工具 支撑,组织架构、评价与考核、管控流程、管控工具这四个域相互作用、相互支撑,提供对各信息系统数据的管控。,大数据分析平台总体架构数据管控组织,数据管控组织是数据管控体系中最重要的因素,它负责定义和管理业务数据相关标准,

33、制定遵寻标准所必须的政策,监测正在进行的数据管控行动。 数据管控组织是否有完整与合理的角色定义、是否有高层领导的参与,是整个数据管控的成败的关键。 典型的数据管控组织如下所示:,数据管控负责部门,岗位,角色,数据管控主导方,信息管理委员会,数据 标准 管理 员,数据 质量 管理 员,数据产生部门,数据管控参与方,业务 协调 人,数据 分析 员,数据主管,数据使用部门,业务 协调 人,数据 分析 员,数据主管,数据拥有部门,业务 协调 人,数据 分析 员,数据主管,数据管理部门,运维组织,实施项目组,数据 安全 管理 员,数据管控经理,元数 据管 理员,大数据分析平台总体架构数据标准管理,消除一

34、数多义,提升数据的唯一性、一致性,将逐步形成的数据标准纳入一个规范的管理流程中,进行数据标准的更新、发布、使用监督等工作。 数据标准管理工作可以分为以下几个部分:数据标准建立和维护、数据标准执行、数据标准管理的考评。,数据标准建立和维护,数据分类,数据结构,关键业务对象,关键代码,数据维度,代码映射,客户类 数据标准,产品类 数据标准,。类 数据标准,数据标准执行,数据标准管理的考评,定性考评,定量考评,数据标准 分析报告,数据标准理念推广,归档系统,ODS,大数据分析平台总体架构数据质量管理,数据质量管理框架蓝图如下,其中数据质量提升是改进数据质量的手段和质量考评的目的: 数据质量要求确认,

35、根据业务要求制定和明确数据质量要求,同时也需要符合数据标准的要求; 数据质量考评,对数据质量的量化评价 制定数据质量问题解决方案,根据数据质量考评和日常工作中发现的数据质量问题,实施相应的措施,提升数据质量,大数据分析平台总体架构元数据管理,业务元数据:面向业务人员,从业务术语、业务描述、业务指标和业务规则等几个方面对数据进行描述 管理元数据:面向数据管理人员,从运维管理的角度描述数据处理、数据质量和数据安全的状态信息 技术元数据:面向技术人员,从数据结构和数据处理细节方面对数据进行技术化描述,大数据分析平台总体架构数据安全管理,数据安全管理可分为数据安全分级管理和数据访问授权管理两个部分:

36、数据安全分级:根据业务要求,制定一系列的数据安全分级标准和政策,为数据应用以及数据管理中实施数据安全保护和访问提供数据安全控制的基础。 数据访问授权:数据访问授权的主要工作是根据数据安全分级标准,定义数据访问的授权方法及流程,建立基于数据安全分级的数据使用授权机制,实现数据访问和信息披露的安全。,数据安全分级,数据敏感度,数据安全 等级定义,数据访问授权,数据重要性,数据使用需求,数据使用者权责,数据访问 授权规则,安全技术,大数据分析平台总体架构高阶工作流程,业务数据规划管理高阶流程 数据认责流程 数据治理考核体系 数据治理考核流程 数据治理考核指标体系 数据标准管理管理高阶流程 数据标准建

37、立流程 数据标准维护流程 数据质量管理管理高阶流程 数据质量要求确定流程 元数据管理高阶流程 元数据变更流程 数据安全管理管理高阶流程 数据安全审批流程,数据认责流程,数据标准、质量、元数据、安全管理流程,协调会议,考核流程,大数据分析平台总体架构数据管控平台,数据管控平台从总体上来说分为数据层、应用层、展现层三个主要层面,以数据层的数据库及相关基础系统为主要信息来源,通过应用层的运算处理,以不同的形式,不同的功能在展现层提供用户接口,大数据分析平台总体产品框架,非结构化/半结构化数据,管理分析平台 (X86 MPP 集群),京东业务系统结构化数据,基础计算平台(贴源数据区+主题数据区+大数据

38、区) (Hadoop集群+Hive),数据交换平台 (自主开发交换组件+NAS存储),实时分析平台 (内存数据库),沙盘演练平台 (Hadoop集群),数据管控平台,FTP,SFTP/HTTP/API,Copyfromloal,Queue,京东云数据推送平台,增值产品平台 ( Hadoop集群),历史归档查询平台 (Hadoop集群+Hive),Load(Hive),Distcp HQL+Load,Distcp,Distcp HQL+Load,Distcp HQL+Load,Sqoop,Sqoop,Sqoop,MR,流程调度平台,议程,大数据分析平台综述,1,大数据分析平台总体架构,2,大数据

39、分析平台演进路线,3,大数据分析平台一期实施重点,4,附录:数据质量管理平台,5,大数据分析平台演进路线,以基础平台搭建为主,配合金融集团初期业务开展,应用建设从客户信息管理、风险管理和运营管理三方面开展,搭建大数据处理平台和实时分析平台,应用方面开展实时分析和数据产品封装,开展客户信息管理、信用风险评级和业务统计分析三类应用建设 开展贴源数据整合,初步建立企业级数据视图,实现对管理分析类应用和实时分析类应用的支撑 规划数据管控蓝图,初步实施数据质量和技术元数据管理,2013年,2014年2015年,2015年以后,对企业价值的创造,应,技,管,全面开展内部管理分析、实时分析和沙盘演练应用建设

40、,初步展开增值数据产品开发工作 全面开展大数据分析平台建设,引入更多数据源,丰富并完善平台数据区建设 随着应用体系的搭建,完善数据质量和元数据建设,开展数据标准化工作,应,技,管,深化分析体系,形成深度智能化业务分析 性能持续优化、数据平台持续完善、 持续深化数据管控体系,形成金融集团企业级的数据管控体系,应,技,管,一期,2013.10,当前位置,未来 持续优化提升阶段,第一阶段,第二阶段,第三阶段,大数据分析平台演进说明基础数据平台,大数据分析平台演进说明数据管控,大数据分析平台演进说明应用体系,议程,大数据分析平台综述,1,大数据分析平台总体架构,2,大数据分析平台演进路线,3,大数据分

41、析平台一期实施重点,4,附录:数据质量管理平台,5,金融大数据分析平台一期架构,基础计算平台:基于Hadoop集群构建,按照业务条线、以贴源数据模型存储了业务系统明细数据 数据交换平台:NAS集群实现了进出数据平台数据的暂存,业务数据交换组件实现了业务系统每日增量数据加载,数据区数据交换组件实现了基础计算平台与管理分析平台间的数据交换 流程调度平台:自主开发的流程调度引擎实现整个数据平台的数据处理任务调度和运行 管理分析平台:由X86 分析型数据库集群、BI软件1J2EE应用构成,实现了面向应用的数据加工、管理、分析服务 实时分析平台:由高档X86服务器组成的集群,实现高时效、高并发的实时、准

42、实时类管理分析需求,数据交换平台 平台逻辑架构,POP,金融大数据分析平台,NAS 集群,物流,财务,供应链,人人贷,云数据推送平台,云数据推送平台实现源系统数据一次获取获、按需分发。 平台采用GoldenGate、JBUS、Flume等技术获取增量数据,存储在MySQL集群 平台按照接口规范生成文件,LZO压缩后,通过FTP传输到NAS指定目录,数据交换平台由FTP服务器、加载服务器和NAS存储组成,完成业务系统数据的获取、加载和归档 FTP服务器:利用LVS构成的FTP集群,接收云数据推送平台处理后的数据,存储在NAS集群的指定目录 加载服务器:部署ETL任务,实现指定目录的文件到达监控、

43、文件级检核、数据加载(Hive Load)到临时数据区,同时归档(copyfromlocal)历史数据区 NAS集群:按照日期和源系统划分目录,缓存数据,支持日常数据交换和ETL,LVS 集群: FTP 服务器#3,加载服务器 #1,加载服务器 #4,LVS 集群: FTP 服务器#1,LVS 集群:负载均衡服务器,数据交换平台 参与方责任划分,设计并实施云数据推送平台; 按照金融集团接口定义,抽取业务系统数据; 按照金融集团接口规范要求,按时生成数据文件、控制文件和DDL文件,并通过FTP传输到NAS指定目录; 若源系统有变更,则要求在变更前提供变更内容说明,升级平台版本,根据金融集团更新接

44、口规范提供数据; 应及时解决接口数据提供过程中出现的问题; 对于未尽事宜,应同金融集团协商解决。,云计算,安装部署金融集团大数据分析平台物理环境、应用软件,并进行基础设施运维; 在业务系统数据库服务器安装并部署云数据推送平台客户端,并提供数据库访问。,运维部门,制定接口规范,并提交给云数据推送项目组; 梳理业务系统数据字典,制定接口定义,并提交给云数据推送项目组; 开发数据交换组件,从NAS获取数据并处理; 对接收的数据提供验证功能,并返回验证结果到云数据推送平台; 根据云数据推送平台提交的变更通知修改接口定义和数据交换组件; 对于未尽事宜,应同云计算方协商解决。,金融集团,针对金融集团需求,

45、指定接口人、提供文档; 业务系统因版本升级等原因导致数据模型发生变化,及时通知云数据推送平台接口责任人。,研发部门,数据交换平台 业务系统数据抽取实现方式,每张源系统表都对应一个独立的数据接口 数据接口由数据文件和控制文件构成(文件命名和具体内容参见接口规范) 文件统一采用UTF-8编码,统一存在在JSS指定目录(参见接口规范) 如果在抽取周期内没有数据变更,云数据推送平台应该生成空的数据接口 传输方式 FTP传输,利用LVS技术构建FTP集群,接收数据 传输频率 云数据推送平台通常按照T+1频率为金融集团提供数据,具体频率要求参见接口定义 接口处理模式 云数据推送平台根据不同接口单元定义,准

46、备数据、生成接口数据文件; 云数据推送平台根据接口规范生成相应的接口控制文件; 云数据推送平台压缩数据(LZO),并通过FTP将数据接口存入NAS指定目录; 金融大数据分析平台部署在不同加载服务器上的数据交换组件完成: 定时轮询NAS指定目录,获取接口(包括数据文件、控制文件和DDL文件); 执行文件级检核; 通过检核后, 将数据文件和控制文件移动到NAS集群指定目录,触发后续ETL处理; 在Task Automation调度下执行数据加载和数据归档任务。,数据交换平台 平台部署架构,数据交换平台由8台X86服务器和一个NAS集群构成 X86 服务器按照功能分为2组,一组实现数据获取,一组实现

47、数据加载和归档 NAS集群作为公共数据区,由8台服务器共享访问(读写),LAN,负责源系统数据文件加载和归档 每台服务器负责多个源系统 支持按需扩展/减少服务器,LVS1负载均衡 其它LVS服务器负责接收接口文件,写入NAS集群目录 支持按需扩展/减少服务器,部署数据交换平台和流程调度平台程序,各服务器通过文件链接使用,按日期和源系统建立数据目录,缓存每日接口文件,供交换平台访问,流程调度平台 平台逻辑架构,Task Automation驱动各个平台、实现从数据存入NAS平台到数据集市生成整个处理过程的工作流管理 数据交换平台负责数据抽取、文件级质量检核、调用Hive Load加载数据 基础计

48、算平台使用Hive SQL实现贴源数据整合、公共汇总数据处理 管理分析平台使用关系型数据库的SQL实现集市数据的处理 历史归档查询平台负责数据文件和Hadoop集群数据归档,流程调度平台 流程调度元数据,Task Automation的元数据统一存储在MySQL数据库中 任务定义,包括任务名称、描述、运行服务器、运行状态、运行时间、相关数据源等属性 任务依赖,任务的执行依赖与其他上游任务 任务触发,任务成功执行后触发的下游任务 任务组,一组有相互关系的任务,全部完成后会触发头任务运行 元数据由所有流程调度服务器共享,流程调度平台 任务调度引擎,通过侦测器侦测事件,按照任务定义和任务依赖关系触发

49、任务运行,触发方式把主要包括 自动触发 定时触发,按照预先定义的时间周期,如每日、每周、每月,或任何有规律的时间间隔执行任务。目前可明确的任务主要是每月执行的基础计算平台、管理分析平台数据归档。 事件触发,按照特定的事件触发、执行任务。如:数据文件到达指定目录,会触发数据加载任务。同样,流程失败也会触发新的job,如错误处理、例外处理等。 手动触发 系统管理员可以使用Task Automation提供的界面或命令接口执行一些job。这些job的功能通常包括对特定范围的数据进行审计与验证、对特定范围的数据进行针对性很强的数据清洗、或者是对某流程失败后的修复。 每个要执行的任务均由任务执行代理启动运行,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教学课件 > 大学教育

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1