ImageVerifierCode 换一换
格式:PPT , 页数:60 ,大小:5.13MB ,
资源ID:384651      下载积分:2000 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
如需开发票,请勿充值!快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
注意:如需开发票,请勿充值!
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【http://www.mydoc123.com/d-384651.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(Hadoop大数据平台介绍.ppt)为本站会员(孙刚)主动上传,麦多课文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知麦多课文库(发送邮件至master@mydoc123.com或直接QQ联系客服),我们立即给予删除!

Hadoop大数据平台介绍.ppt

1、Hadoop大数据平台介绍,目 录,HDFS介绍,Hadoop概述,MapReduce介绍,如何对大数据进行存储与分析呢?,系统瓶颈,存储容量,读写速度,计算效率,Google大数据技术,MapReduce,BigTable,GFS,革命性变化1:成本降低,能用PC机,就不用大型机和高端存储,小型机,大型机,磁盘阵列,革命性变化1:成本降低,能用PC机,就不用大型机和高端存储,革命性变化1:成本降低,能用PC机,就不用大型机和高端存储,革命性变化2:软件容错硬件故障视为常态,通过软件保证可靠性,革命性变化3:简化并行分布式计算,无须控制节点同步和数据交换,Map,Reduce,但是,Googl

2、e只发表了相关的技术论文,没有开放源代码。,一个模仿Google大数据技术的开源实现来了。,为何取名Hadoop?,Hadoop是什么?,http:/hadoop.apache.org/,开源的,分布式存储 + 分布式计算平台,Hadoop的组成,包括两个核心组成:,HDFS:分布式文件系统,存储海量的数据,MapReduce:并行处理框架,实现任务分解和调度,Hadoop可以用来做什么?,搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务,搜索引擎,商业智能,数据挖掘,日志分析,Hadoop的优势,优势1:高扩展,优势2:低成本,优势3:成熟的生态圈,目 录,HDFS介绍,Hadoo

3、p概述,MapReduce介绍,HDFS基本概念,块(Block),NameNode,DataNode,HDFS的文件被分成块进行存储,HDFS块的默认大小是64MB,块是文件存储处理的逻辑单元,HDFS中有两类节点,NameNode 和 DataNode,NameNode是管理节点,存放文件元数据, 文件与数据块的映射表, 数据块与数据节点的映射表,HDFS体系结构,DataNode是HDFS的工作节点, 存放数据块,HDFS体系结构,HDFS中数据管理与容错,数据块副本,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNod

4、e2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,每个数据块3个副本,分布在两个机架内的三个节点,数据块副本,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,每个数据块3个副本,分布在两个机架内的三个节点,数据块副本,机架1,机架2,NameNode,S

5、econdary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,每个数据块3个副本,分布在两个机架内的三个节点,心跳检测,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,心跳消息,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,DataNode定期向Nam

6、eNode发送心跳消息,心跳消息,心跳消息,心跳检测,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,心跳消息,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,DataNode定期向NameNode发送心跳消息,心跳消息,心跳消息,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据

7、块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,二级NameNode,二级NameNode定期同步元数据映射文件和修改日志 NameNode发生故障时,备胎转正。,Editlog,FsImage,HDFS中文件读写的流程,机架1,机架2,NameNode,Secondary NameNode,客户端,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5, 文件读取请求,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,HDFS读取文件的流程, 返回元数据, 读取数据块, 读取数据块, 读取数据块,机架1,机架2

8、,NameNode,Secondary NameNode,客户端,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5, 文件拆分成块,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,HDFS写入文件的流程, 返回DataNodes, 写入数据块, 流水线复制, 更新元数据,HDFS的特点, 数据冗余,硬件容错, 流式的数据访问, 适合存储大文件,HDFS写入文件的流程,机架1,机架2,NameNode,Secondary NameNode,客户端,DataNode1,DataNode2,DataNode3,DataNode4,Data

9、Node5, 文件拆分成块,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E, 返回DataNodes, 写入数据块, 流水线复制, 更新元数据,HDFS的特点,适用性和局限性,- 适合数据批量读写,吞吐量高,- 不适合交互式应用,低延迟很难满足,- 适合一次写入多次读取,顺序读写,- 不支持多用户并发写相同文件,目 录,HDFS介绍,Hadoop概述,MapReduce介绍,MapReduce原理,分而治之,一个大任务分成多个小的子任务(Map), 并行执行后,合并结果(Reduce),100GB 网站访问日志文件,找出访问次数最多的IP地址,map(),map(),map(),m

10、ap(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,日志,日志,日志,日志,日志,map(),map(),map(),map(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,日志,日志,日志,日

11、志,日志,IP1,IP1,IP1,IP1,IP1,IP2,IP2,IP2,IP2,IP2,IP3,IP3,IP3,IP3,IP3,X次,Y次,Z次, ,map(),map(),map(),map(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,日志,日志,日志,日志,日志,IP1,IP2,IP3,X次,Y次,Z次,map(),map(),map(),map(),map(),reduce(),re

12、duce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,MapReduce的运行流程,基本概念,Job & Task,JobTracker,TaskTracker,Map TaskTracker,Reduce TaskTracker,JobTracker,客户端,TaskTracker1 DataNode1,TaskTreacker2 DataNode2,TaskTracker3 DataNode3,TaskTracker4 DataNod

13、e4,TaskTracker5 DataNode5,作业(Job),Reduce任务,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,Hadoop MapReduce体系结构,Map任务,状态更新,JobTracker的角色, 作业调度, 分配任务、监控任务执行进度, 监控TaskTracker的状态,TaskTracker的角色, 执行任务, 汇报任务状态,Map端,MapReduce作业执行过程,MapReduce Job,JobTracker,Scheduler,TaskTracker,TaskTracker,TaskTracker,TaskTracker,TaskTracker,Reduce端,数 据 片 段,提交,分配Map任务,分配Reduce任务,输入数据,Map任务,中间结果 (Key-Value对),Reduce任务,输出结果,MapReduce的容错机制, 重复执行,X 4,MapReduce的容错机制, 重复执行, 推测执行,Map端,Map端,Map端,MapReduce的容错机制, 重复执行, 推测执行,Reduce端,TaskTracker,TaskTracker,TaskTracker,

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1