《海量数据挖掘-王永利》MRTuner 一种可以全面优化MapReduce工作的工具包.docVIP

下载本文档

12
0
约 25页
2017-03-02 发布于浙江
举报
版权申诉

《海量数据挖掘-王永利》MRTuner 一种可以全面优化MapReduce工作的工具包.doc

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

MRTuner: 一种可以全面优化MapReduce工作的工具包 Juwei Shi, Jia Zou, Jiaheng Lu, Zhao Cao, Shiqiang Li and Chen Wang 摘要：基于数据密集型计算解决方案的MapReduce正渐渐发展部署为一套产品系统。不像那些因为用户能力的限制而只能使用来自传统公司技术的互联网公司，为MapReduce而生的自动作业优化软件是一种很有前途的技术，用来满足这样的要求在这篇文章中，我们介绍一个来自IBM的工具包，叫做MRTuner，它可以整体优化。MapReduce作业。并且我们提出一个新颖的Producer-Transporter-Consumer(PTC)的模型，它可以描述在多任务的并行执行中的任务分配关系。我们也仔细调查了大约20参数中那些对整个作业执行都有重大意义的复杂系数。我们设计一个高效的搜索算法找到最佳的执行方法。最后，我们在两种不同类型的集群进行了一次彻底的试验评估，分别使用了包含大量从GB到TB级Hadoop负载的HiBench套件。实验结果表明，MRTuner的搜索延迟比最新的基于花费的优化方法都要高出几个数量级的优势，这种优化方法是一个有着巨大意义的改进。 1 介绍如今基于数据密集型计算解决方案的MapReduce正渐渐发展部署为一套产品系统。由于对于快速增长的数据处理能力的需求[10]，这些系统在传统的行业，如银行和通信行业中逐渐变得流行起来。然而，如同Hadoop一般来自开源社区的基于MapReduce的系统通常需要IT专业人员以及一个很长的学习曲线，特别是对系统性能管理，以及更好地利用系统资源方面。在Hadoop参数的设置方面需要对作业、数据和系统资源的特点有充分的理解，这是已经超越传统的企业IT人的知识范畴。另一个关于MapReduce作业优化的有趣的场景来自云计算中的分析服务(如Elastic MapReduce)。用户，比如数据分析师，不知道如何正确选择MapReduce的参数来加快作业执行。因此，由以上场景的激发，本文提出并构建自动对 MapReduce工作进行优化的工具箱。图1 一个MapReduce作业的流水线执行过程在过去的几十年里作业优化（即查询优化）[1]技术都被广泛的用于关系数据库管理系统(RDMBS)中。传统的查询优化器构建一个开销模型来估计查询处理成本，并设计查询算法像动态编程来找到最好的执行方法。然而，因为固有的系统差异，应用于RDBMS的开销模型和搜索算法都不能工作在MapReduce作业上。基于成本优化的MapReduce在文献[6、7]中研究，在这些研究中以单个的Map或Reduce执行建模，并模拟所有的MapReduce方法并从中找到最好的执行计划。这个解决方案是一个开拓性的壮举，但是有一些缺陷。例如，现有的MapReduce成本模型[6、11]专注于预测单个Map或Reduce的任务成本，但很少提出任务之间的并行执行。MapReduce编程模型中，总执行时间可能不等于每个任务的成本的总和，这是因为在并行执行的(Map和Reduce)任务中的重叠时间窗中存在着潜在的成本节省。这些重叠的成本节省应该被纳入考虑范围，尤其是在更全面的优化器以及在企业中需要最大限度地利用有限的硬件资源的条件下。此外，Hadoop超过190个配置参数，其中10 - 20参数对工作执行效果有显著影响。为了解决高维度的问题，现有的算法[6]使用一个随机搜索算法，这可能会导致次优的解决方案没有偏差较大。为了克服上述两个局限性，我们对MapReduce工作优化进行了深入的研究。为了给平行执行的MapReduce作业进行任务间的建模，我们使用流水线执行模型来描述任务之间的关系。流水线模型的一个关键特性是，一部分的Shuffle阶段可以与Map阶段重叠。在图1中我们展示了流水线执行的一个例子 (我们将在第三部分详细阐述的任务跟踪，Map和Reduce波形和其他概念)。对于该作业执行过程，部分的Shuffle任务(r1与 r3)与Map任务重叠(m5 到m11)在时间tov段中。重叠是受到一些关键参数影响的，如压缩选项，Map和Reduce任务的数量，和复制线程的数量。MapReduce的重叠时间窗使设计成本模型具有挑战性，我们从而确定一些基本的权衡参数(有关详细信息，请参阅第3.1节)来指导新MapReduce成本模型的设计。作为本研究的基础，我们提出了Producer-Transporter-Consumer(PTC)成本模型来描述并行执行MapReduce方法的优缺点。PTC模型的关键的作用在于对于一个MapReduce工作执行方法，如何将Map输出(即生产者) 的生成、Map输出(即运输者)和M