云计算与大数据技术 课件9.2HDFS概述.pptx

云计算与大数据技术 课件9.2HDFS概述.pptx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

HDFS概述

分布式文件系统随着互联网应用的普及,电商网站、音视频网站等进入了大规模数据应用领域,采用单机模式已经无法满足实际需求。为了解决单机模式存在的问题,Google开发了分布式文件系统GFS,该文件系统的服务端通过一个集群来实现,客户端可以并发地访问该集群的数万个节点,承载能力得到极大的提升。

分布式文件系统当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统就被称为分布式文件系统。

HDFS简介HDFS是一种允许文件通过网络在多台主机上分享的文件系统,可以让多台机器上的多个用户分享文件和存储空间。HDFS允许运行在大量普通的机器上,提供容错机制,是一种易于扩展的分布式文件系统,为大量用户提供性能较好的文件存取服务。

HDFS的优点(1)高容错性,会自动保存多个副本,默认保存3个副本,可根据需要进行设置,且副本丢失后,会自动恢复。(2)适合批处理,移动计算而非移动数据,将数据位置暴露给计算框架,将数据切分为BlockList,并将BlockList存放在NodeList中。NameNode中保存HDFS的两个维度的映射。(3)适合大数据处理,支持GB、TB甚至PB级数据,百万规模以上的文件数量,10KB+节点规模。(4)流文件访问:一次性写入,多次读取,保证数据一致性。(5)可构建在普通机器上:通过多副本提高可靠性,提供了容错和恢复机制。

HDFS架构Hadoop2.0之后提出了HA(HighAvailability高可用性)的概念。可以采用HA的HDFS集群配置两个NameNode,使其分别处于Active和Standby状态。

HDFS读写文件流程HDFS写文件流程

HDFS写文件流程当客户端需要写入数据时,先在NameNode上创建文件结构并确定将数据块副本写入到哪几个DataNode中,然后将多个待写DataNode组成一个写数据管道,保证写入过程完整、统一。

HDFS读写文件流程当客户端需要读取数据时,先通过NameNode找到存储数据块副本的所有DataNode,根据与读取的客户端的距离(就近原则,本地→同机架→同交换机→同机房)排序数据块,然后选择距离最近的DataNode来读取数据。

HDFS读写文件流程HDFS读文件流程

HDFS的Block副本放置策略(1)第一个Block副本放置在客户端节点所在机架的DataNode里(如果客户端不在集群范围内,则会随机选择一个节点,但系统会尽量避开过满或过载的节点。(2)第二个Block副本放置在与第一个DataNode节点相同的机架中的另一个DataNode中(随机选择)。(3)第三个Block副本放置在另一个随机远端机架的一个随机DataNode中。如果需要更多的副本,则随机放置在集群的节点中。这种策略旨在实现数据冗余和故障恢复,确保数据的安全性和可靠性。

HDFS的Block副本放置策略

HDFS的可靠性策略HDFS的可靠性策略是由多个机制共同维护的,有文件完整性、心跳检测、元数据保护、副本冗余策略、主备NameNode实时切换、机架策略、安全模式、保护快照机制等。

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档