hadoop汇报2技术总结.ppt

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop大数据平台基础与应用 目录 大数据背景 Hadoop简介 Hadoop核心之HDFS Hadoop核心之MapReduce Hadoop应用案例 研究设想(结合案例推理系统) 大数据的特性 Volume Volume Variety Volume 模态多样 Veracity Volume 真伪难辨 Velocity Volume 速度极快 体量巨大 文本 视频 图片 音频 到2020年,数据总量达40ZB,人均5.2TB 分享的内容条目超过25亿个/天,增加数据超过500TB/天 大数据涉及的领域 * 用户生成数据 Deep Web数据 多模态内容数据 天文 气象 基因 医学 经济 物理 其他领域 网络与关系数据 大数据史记 一种大数据可视化系统架构 Hadoop是什么? Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。 解决的问题: 海量数据的存储——HDFS 海量数据的分析——MapReduce 资源管理调度——Yarn(hadoop2.X之后) Hadoop的产生 根据Google发布的三篇论文——GFS(The Google File System)、MapReduce、BigTable Hadoop项目结构 除了Hadoop的两大核心内容Hadoop分布式文件系统(HDFS)和MapReduce计算框架之外,还有着其他紧密的关联项目。 Hadoop核心之HDFS HDFS:即Hadoop Distributed File System ,分布式文件系统 。 HDFS是用来解决海量数据的存储问题。 HDFS具有高容错性、高伸缩性等优点,可以将Hadoop部署在廉价的计算机集群上,形成分布式系统。 高容错性指的是在故障存在的情况下计算机系统不失效,仍然能够正常工作的特性。 高伸缩性指的是通过很少的改动甚至只是硬件设备的添置,就能实现整个系统处理能力的线性增长,实现高吞吐量和低延迟高性能 Hadoop核心之HDFS HDFS的架构: 主从结构 主节点, namenode 从节点,有很多个: datanode namenode负责: 接收用户操作请求 维护文件系统的目录结构 管理文件与block之间关系,block与datanode之间关系 datanode负责: 存储文件 文件被分成block存储在磁盘上 为保证数据安全,文件会有多个副本 Hadoop核心之MapReduce 由于有HDFS来实现分布式存储的底层支持,这就方便了通过MapReduce来实现分布式并行任务处理的程序。 MapReduce是一种计算框架,基于它可以将任务分发到上千台计算机组成的集群上,并以一种可靠容错的方式并行处理大量的数据集,从而实现Hadoop的并行任务处理。 Hadoop核心之MapReduce MapReduce框架: 一个单独运行在主节点的JobTracker 运行在每个集群从节点的TaskTracker 主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上; 主节点监控它们的执行情况,并且重新执行之前失败的任务; 从节点近负责主节点指派的任务; Hadoop核心之MapReduce MapReduce的原理: 利用一个输入的key,value对集合,通过一定的中间处理环节来产生一个输出的key,value对集合。 对于中间的处理,用Map和Reduce这两个函数来表示计算过程。 Map函数接收一个输入的key,value对,然后产生一个中间key,value对的集合。之后把所有具有相同key值的value集合在一起,形成key,list(value),然后传递给Reduce函数。 Hadoop核心之MapReduce Reduce函数接收key,list(value)集合后,Reduce函数合并这些value值,形成一个较小的value集合。 Hadoop应用案例——单词计数 正如“Hello World”是C、C++、Java等的入门程序一样,单词计数即WordCount也是MapReduce的入门程序。 问题描述: 输入一个文件,内容如下: Hello World Hello Hadoop Hello MapReduce 处理结果: Hello 3 World 1 Hadoop 1 MapReduce 1 Hadoop应用案例——单词计数 * *

文档评论(0)

yy558933 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档