MapReduce的系统性能评估与Backup调度的策略.doc

MapReduce的系统性能评估与Backup调度的策略.doc

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MapReduce的系统性能评估与Backup调度的策略

本科生毕业论文 题目:(中文 MapReduce的系统性能评估与Backup调度策略 (英文) Performance Evaluation and Backup tasks for MapReduce 姓 名: 学 号: 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 二○一一年十月一日 摘要 MapReduce是一个在海量数据上进行数据处理的并行编程模型,它特别适合于海量非结构化和结构化数据的搜索、分析和挖掘任务,已经开始被人们广泛使用。对于兴起的众多类似MapReduce系统来说,如何有效地评估和分析对比这些系统,成为当前一个需要解决的问题。 本文详细讨论了针对MapReduce运行系统的性能评估指标和方法,设计和选择一系列具有代表性的程序和数据作为基准,用来评估和分析MapReduce系统。在这一评估方法指导下,本文在我们自己实现的MapReduce运行系统Tplatform平台上扩展了Profiling功能,然后进行了一系列评估实验,来分析和寻找系统性能瓶颈,为未来系统优化提供依据。通过实验我们发现了我们系统的一些可改进的问题如任务调度、落后者问题等等。我们选择了针对导致提交任务延迟增加的落后者问题,通过实现后备任务策略来尝试改进。经模拟实验结果显示,我们提出的改进策略能够有效地改进落后者问题的性能问题。 关键词:MapReduce,性能评估,落后者问题,后备任务策略 Abstract MapReduce is becoming an important parallel programming paradigm for processing Internet scale data. It is widely used to process jobs such as searching, analyzing, and mining on large scale structured and semi-structured data. It is still a problem for the emerging MapReduce-like systems to analyze and evaluate systematically and efficiently. This paper discussed the issues in performance evaluation for MapReduce runtime system. We designed and chose a series of representative programs and data as benchmark. And then we implement profiling in our homemade MapReduce system which named Tplatform. We did the evaluation experiment for finding the bottleneck of the system. Through the experiment, we found some performance problems such as scheduling and stragglers etc. We implemented backup tasks for improving the problems caused by stragglers. Our simulation results reveal that we improve the performance efficiently. Keywords: MapReduce, Performance Evaluation, Stragglers, Backup tasks 目录 第 1 章 引言 4 第 2 章 MapReduce框架 6 2.1 MapReduce模型介绍 6 2.2 系统实现 6 2.3 Tplatform的实现 8 第 3 章 系统评估 10 3.1 评估目标 10 3.2 基准程序和数据 10 3.2.1 基准程序集合 11 3.2.2 评估目标 13 第 4 章 系统监控和程序概要分析 15 4.1 实现细节 15 第 5 章 评估实验 17 5.1 机群配置 17 5.2 实验结果 17 5.2.1 单任务延迟和总机器时间 17 5.2.2 平均结束时间 18

文档评论(0)

130****9768 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档