1、Hadoop大数据平台介绍,目 录,HDFS介绍,Hadoop概述,MapReduce介绍,如何对大数据进行存储与分析呢?,系统瓶颈,存储容量,读写速度,计算效率,Google大数据技术,MapReduce,BigTable,GFS,革命性变化1:成本降低,能用PC机,就不用大型机和高端存储,小型机,大型机,磁盘阵列,革命性变化1:成本降低,能用PC机,就不用大型机和高端存储,革命性变化1:成本降低,能用PC机,就不用大型机和高端存储,革命性变化2:软件容错硬件故障视为常态,通过软件保证可靠性,革命性变化3:简化并行分布式计算,无须控制节点同步和数据交换,Map,Reduce,但是,Googl
2、e只发表了相关的技术论文,没有开放源代码。,一个模仿Google大数据技术的开源实现来了。,为何取名Hadoop?,Hadoop是什么?,http:/hadoop.apache.org/,开源的,分布式存储 + 分布式计算平台,Hadoop的组成,包括两个核心组成:,HDFS:分布式文件系统,存储海量的数据,MapReduce:并行处理框架,实现任务分解和调度,Hadoop可以用来做什么?,搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务,搜索引擎,商业智能,数据挖掘,日志分析,Hadoop的优势,优势1:高扩展,优势2:低成本,优势3:成熟的生态圈,目 录,HDFS介绍,Hadoo
3、p概述,MapReduce介绍,HDFS基本概念,块(Block),NameNode,DataNode,HDFS的文件被分成块进行存储,HDFS块的默认大小是64MB,块是文件存储处理的逻辑单元,HDFS中有两类节点,NameNode 和 DataNode,NameNode是管理节点,存放文件元数据, 文件与数据块的映射表, 数据块与数据节点的映射表,HDFS体系结构,DataNode是HDFS的工作节点, 存放数据块,HDFS体系结构,HDFS中数据管理与容错,数据块副本,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNod
4、e2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,每个数据块3个副本,分布在两个机架内的三个节点,数据块副本,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,每个数据块3个副本,分布在两个机架内的三个节点,数据块副本,机架1,机架2,NameNode,S
5、econdary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,每个数据块3个副本,分布在两个机架内的三个节点,心跳检测,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,心跳消息,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,DataNode定期向Nam
6、eNode发送心跳消息,心跳消息,心跳消息,心跳检测,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,心跳消息,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,DataNode定期向NameNode发送心跳消息,心跳消息,心跳消息,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据
7、块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,二级NameNode,二级NameNode定期同步元数据映射文件和修改日志 NameNode发生故障时,备胎转正。,Editlog,FsImage,HDFS中文件读写的流程,机架1,机架2,NameNode,Secondary NameNode,客户端,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5, 文件读取请求,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,HDFS读取文件的流程, 返回元数据, 读取数据块, 读取数据块, 读取数据块,机架1,机架2
8、,NameNode,Secondary NameNode,客户端,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5, 文件拆分成块,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,HDFS写入文件的流程, 返回DataNodes, 写入数据块, 流水线复制, 更新元数据,HDFS的特点, 数据冗余,硬件容错, 流式的数据访问, 适合存储大文件,HDFS写入文件的流程,机架1,机架2,NameNode,Secondary NameNode,客户端,DataNode1,DataNode2,DataNode3,DataNode4,Data
9、Node5, 文件拆分成块,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E, 返回DataNodes, 写入数据块, 流水线复制, 更新元数据,HDFS的特点,适用性和局限性,- 适合数据批量读写,吞吐量高,- 不适合交互式应用,低延迟很难满足,- 适合一次写入多次读取,顺序读写,- 不支持多用户并发写相同文件,目 录,HDFS介绍,Hadoop概述,MapReduce介绍,MapReduce原理,分而治之,一个大任务分成多个小的子任务(Map), 并行执行后,合并结果(Reduce),100GB 网站访问日志文件,找出访问次数最多的IP地址,map(),map(),map(),m
10、ap(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,日志,日志,日志,日志,日志,map(),map(),map(),map(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,日志,日志,日志,日
11、志,日志,IP1,IP1,IP1,IP1,IP1,IP2,IP2,IP2,IP2,IP2,IP3,IP3,IP3,IP3,IP3,X次,Y次,Z次, ,map(),map(),map(),map(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,日志,日志,日志,日志,日志,IP1,IP2,IP3,X次,Y次,Z次,map(),map(),map(),map(),map(),reduce(),re
12、duce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,MapReduce的运行流程,基本概念,Job & Task,JobTracker,TaskTracker,Map TaskTracker,Reduce TaskTracker,JobTracker,客户端,TaskTracker1 DataNode1,TaskTreacker2 DataNode2,TaskTracker3 DataNode3,TaskTracker4 DataNod
13、e4,TaskTracker5 DataNode5,作业(Job),Reduce任务,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,Hadoop MapReduce体系结构,Map任务,状态更新,JobTracker的角色, 作业调度, 分配任务、监控任务执行进度, 监控TaskTracker的状态,TaskTracker的角色, 执行任务, 汇报任务状态,Map端,MapReduce作业执行过程,MapReduce Job,JobTracker,Scheduler,TaskTracker,TaskTracker,TaskTracker,TaskTracker,TaskTracker,Reduce端,数 据 片 段,提交,分配Map任务,分配Reduce任务,输入数据,Map任务,中间结果 (Key-Value对),Reduce任务,输出结果,MapReduce的容错机制, 重复执行,X 4,MapReduce的容错机制, 重复执行, 推测执行,Map端,Map端,Map端,MapReduce的容错机制, 重复执行, 推测执行,Reduce端,TaskTracker,TaskTracker,TaskTracker,
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1