Hadoop3.0大数据平台性能.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

Hadoop3.0大数据平台性能

?

?

李士果卢建云

摘要???针对发布的Hadoop3.0,本文研究了Hadoop3.0大数据平台性能。首先,采用华为云服务器搭建大数据平台;其次,利用Hadoop框架提供的基准性能测试程序进行性能验证,测试指标包括TestDFSIO、MRBench和TeraSort。最后,对比分析不同负载、不同数据量对平台性能的影响。实验结果表明,Hadoop3.0在HDFS读写能力、MapReduce计算能力上均表现出较优的性能。

【关键词】大数据Hadoop3.0性能测试

1引言

Hadoop作为开源的分布式系统基础架构,具有高扩展性、高可靠性、高容错性、低成本等特性,在政府、金融、工业、教育等领域得到了广泛的应用。Hadoop平台发展至今,发布了三个大版本,分别是Hadoop1.0、2.0和3.0。从Hadoop1.0到Hadoop2.0,增加了资源管理系统Yarn,使得Hadoop2.0具有更好的扩展性和性能,并支持多种计算框架。近来,Apache发布了Hadoop3.0版本,该版本在功能和性能方面做了多项改进,使得Hadoop3.0在存储和计算性能方面得到很大提升。因此,对Hadoop3.0平台性能进行研究具有重要的实际应用意义。本文基于华为云服务器搭建Hadoop3.0完全分布式集群,使用Hadoop3.0提供的基准测试程序对平台进行性能测试。分析对比不同负载、不同数据量对Hadoop3.0平台的性能影响。

2Hadoop3.0平台特性

Hadoop是Apache旗下一个顶级分布式计算开源框架项目,主要包括两个核心组件:分布式存储子系统HDFS和分布式计算子系统MapReduce。Hadoop采用主/从架构管理存储和计算。通常,在Hadoop完全分布式集群上,运行了一系列后台程序。这些后台程序代表了不同的服务,例如NameNode、DataNode、SecondaryNameNode、JobTracker、TaskTracker等。其中NameNode、SecondaryNameNode、JobTracker运行在Master节点上,而在每个Worker节点上,部署一个DataNode和TaskTracker,以便这个Worker服务器运行的数据处理程序能尽可能直接处理本机的数据。Hadoop3.0框架如图1所示。

Hadoop3.0引入了一些重要的特性,如HDFS可擦除编码技术、支持多NameNode、Yarn基于cgroup的内存和磁盘IO隔离、MRNativeTask优化等,综合性能有很大提升。

3实验与结果分析

为了测试Hadoop3.0平台性能,方便对平台性能进行调优。实验采用Hadoop3.0具有代表性的基准测试工具TestDFSIO、MRBench和TeraSort对HDFS读写性能、MapReduce并行计算能力进行测试,通过吞吐量、执行时间等指标对测试结果进行分析。

3.1实验环境

实验采用4台华为云服务器搭建Hadoop3.0完全分布式集群。该集群包含4个节点,其中2个节点部署为Master,全部4个节点作为Worker。Linux操作系统版本是Centos7.4,Java版本是1.8.0_191,Hadoop版本是3.1.0。表1列出了Hadoop3.0完全分布式集群部署信息。

3.2實验与分析

3.2.1TestDFSIO测试Test

DFSIO是Hadoop提供的基准测试工具,用于测试HDFS的读写性能。TestDFSIO设计原理是每个文件读写都在单独的Map任务中进行,Map任务以并行方式读写文件,Reduce任务用于收集和汇总文件处理性能数据。该实验数据总量为20G,不断增加文件数量进行测试。测试结果如图2和图3所示。

图2和图3表明,在20G数据量保持不变的情况下,随着文件数量的增加,并发Map数量不断增加,HDFS读写吞吐量和读写时间均呈下降趋势。其中,写数据的吞吐量明显低于读数据的吞吐量,写数据的执行时间明显高于读数据的执行时间。

3.2.2MRBench测试MRBench

用于检验小作业是否可重复高效运行,它通过多次重复执行一个小作业来验证MapReduce的并行处理性能。本实验使用MRBench默认配置重复执行小作业进行测试。MRBench配置如下:inputLines=1,mapper=2,reducer=1,分别重复执行10次、50次、100次、200次、500次和1000次,运行结果如图4所示。

图4结果显示,随着重复执行次数的增加,作业的平均执行时间缓慢下降并趋于稳定。从最后两次测试结果发现,重复执行500次和1000次的时间相对持平,说明小作业重复执行500次到1000次的性能趋于稳定。

3.2.3

文档评论(0)

151****0181 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档