一种改进的数据本案放置策略.docxVIP

下载本文档

2
0
约6.65千字
约 6页
2023-09-07 发布于广东
举报
版权申诉

一种改进的数据本案放置策略.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种改进的数据本案放置策略随着互联网和分布计算技术的发展，越来越多的数据密集应用已经出现。这些应用程序通常需要包含一系列tcp数据（1012b）。如何高效、可靠、方便地处理大量数据已成为一个重要的研究方向。同时，该网络基于其开放性已成为一个适合数据密集应用的合适平台。对于这些大规模数据集的并行编程模型，模型将大型任务分解为多个小型任务，并在一组中并行完成。对于集群中的多节点并行编程，任务被分解为动态模式和gfs数据存储方法的两个部分，因此编程者没有必要注意多节点和行计算的实现。开源代码。以前的布局是非常可靠的并行编程平台。ha是开源代码格式的分布式编程模型和基于数据存储方法的开发模式。目前，ha有许多成功的应用，如电子邮件、社交媒体等。此外，大多数其他网站，如历史数据和巨块数据，也在开发基于大量数据的应用。如何可靠而且合理地存放海量数据是Hadoop体系中的一个重要问题.由于集群由大量机器组成,存储结点的故障就不可避免.为了避免个别结点的失效导致数据永久性的丢失.Hadoop将数据的多个副本存放在集群中的不同机器上,当有结点失效时,其仍然可以读取数据.为此,应当将同一数据块的多个副本存放在相距较远的多个机器上,从而确保在整个机架都发生故障时数据的安全.但另一方面,由于Map Reduce中的运算常常需要输入大量的数据,而大量数据的移动会显著影响运算的性能,所以数据的存放应当遵循本地性的原则,即数据应当距离运算结点较近,从而减少因数据移动带来的性能损失. 针对这一问题,当前的HDFS在选择存放数据块的结点时采用的策略是机架感知策略.该策略将数据块的多个副本同时存放在本地机架与一个随机的远端机架的结点上,当客户结点发起读取数据结点请求时,就可以确保能够从本地读取数据.而且,若本地结点因故障失效,系统则通过远端结点的副本就可以进行数据恢复.但该策略在放置多于一个副本时采用的随机策略却可能导致数据恢复时不必要的性能损失.随机选取的远端机架的结点可能会由于距离本地结点太远而增加不必要的数据恢复时间,同时随机选取结点也不能保证结点之间数据存储的平衡.由于系统中结点的失效是常态,数据恢复时不必要的性能损失会导致整个存储系统性能下降.文献提出的LATE调度算法考虑了系统的异构性,通过为剩余时间最长的任务启动备份任务的方法,提高了Map Reduce在异构环境下的效率调度性能.针对当前Hadoop实现中假设计算结点是同构的且没有考虑数据存放位置等问题,文献提出了根据计算结点的处理能力按比例存放数据的策略,该数据放置策略考虑到了结点异构性,通过提出的数据放置策略改进了Hadoop异构集群系统的性能.然而,它们都没有考虑到远程数据副本的网络距离和各结点数据的负载均衡.因此,文中针对HDFS数据块副本的放置问题,提出了基于评价值的选取策略,该策略结合结点距离与数据负载来改进数据块副本放置,以提高系统的存储性能和平衡结点存储资源的利用率. 1 数据访问策略 1.1 模式2,平台下沉a Hadoop框架包括两个部分:由运算结点组成的Map Reduce模块与由存储结点组成的HDFS.它们均采用主从式的管理方式.在HDFS中,负责数据块放置管理的结点为Name Node,目前在一个HDFS中只有一个Name Node.而负责实际数据存放的结点称为Data Node.当用户向Name Node发起存储请求时,Name Node按照指定的数据副本放置策略将数据存储在集群内的多个Data Node上. 在当前的HDFS系统中,系统默认为每一个数据块存放3个副本,按照部署在Name Node上的默认机架感知策略存放数据块副本(如图1所示).其中,两个副本(数据块副本1、数据块副本2)存放于客户结点本地机架(机架A)上,当用户发起数据读取请求时可以较快地读取,从而保证数据具有较好的本地性;另外一个数据块副本(数据块副本3)存放于一个随机远端机架(机架B)的一个随机结点上;如果还有更多副本,则在整个集群中随机选取结点存放.当整个本地结点都失效时,HDFS系统将自动地通过远端机架上的数据副本将数据副本的数量恢复到标准数量. 1.2 基于随机选取着力点存储负载的扩大算法 HDFS当前的数据放置策略较好地平衡了数据的本地性原则与数据的完整性.但由于HDFS集群由大量机器组成,系统中常常存在由程序Bug、操作系统崩溃、人为失误、内存硬盘网络故障等引起的结点失效,所以数据副本的恢复是系统运行时的常态,系统数据块恢复所用的时间因而成为制约系统性能的一个重要因素.由于采取随机选取远端机架的策略,当本地结点失效需要进行数据副本恢复时,若其他的数据副本存放在距离过远的机架上,就有可能因为在数据副本的自动恢复上耗费过长的时间而造成不必要的时间损失.另一方面,随机选取结点的存储方式也