- 1、本文档共135页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
擒璺摘要
擒璺
摘要
在高性能计算机的研究当中,如何保证系统的可用性和应用的可靠性一直就是需要 首要考虑的问题之一.机群以其高性价比和高可扩展性已经成为构造高性能计算机一种 主要的方法,而节点间松散耦合的结构也使得机群系统更易于保证系统的可用性。随着 机群系统规模的逐渐增大,也带来许多了新的问题,如更加频繁的组件失效,软件体系 结构的扩展性等问题。这些新的问题对如何保证系统的可用性带来了更多的挑战。机群 容错中间件技术将机群、容错和中闯件技术结合在一起,是一种在机群系统软件层实现 的能够同时保证系统可用性和应用可靠性的方法.
本文结合曙光4000A系统的机群操作系统Phoenix高可用核心的设计与实现,对机 群容错中间件的关键技术进行了探索,重点研究了:1)在大规模情况下,适用于机群 系统的容错中间件的框架与体系结构;2)在容错中间件技术中,适合于大规模机群的 容错实现机制;3)在采用容错中间件情况下,对机群系统可用性和应用可靠性的评 价.本文取得的研究成果如下: 1.在提出和分析机群系统规模变大给系统可用性所带来的新的挑战后,提出了一个用
于大规模机群系统的容错中间件框架DCFl-Kernel。这个框架采用了分区管理的思 想及“平等式”与“结构式”结合的体系结构,较当前的机群高可用软件有效地解 决了大规模系统所带来的系统扩展性、软件体系结构扩展性、和容错机制扩展性等 问题。DCFT-Kemel框架由组服务、故障管理服务、配置服务、事件服务和用户接 口组成,能够提供完备的错误侦测、错误修复、错误通知功能。
2.在分析了将容错技术应用到机群系统在理论上需要解决的问题后,提出了一种用于 实现机群容错中间件核心容错机制的关键技术一一组服务技术。机群容错中间件的 工作基础是自身的高可靠,组服务技术通过采用组结构和成员关系协议,能够保证 机群容错中间件自身在运行时严格的一致性和高可靠性.在组服务基础上,提出的 机群容错机制充分考虑了机群系统和并行应用的特点。提供了层次化的故障侦测和 处理方法,能够对大部分的系统故障和应用故障进行有效的处理。
3.在曙光4000A系统上实现了一个实际运行的机群容错中间件系统DCFTM。DCFTM 位于机群操作系统的核心,为机群操作系统的各种服务部件提供高可用支持,同时 也可以直接向上层应用程序提供编程接口,保障应用程序的容错运行。通过对 DCFTM实际运行的性能分析表明:1)DCFTM能够保证机群操作系统中各类服务 的高可用运行,在故障处理时町以提供很高的响应时间,能够及时的发现和修复各 种故障。并通知这些事件.2)DCFrIVl只占据很少的系统开销,只要将心跳间隔时
间设置不低于1秒,即使在极限的负载情况下也能正常工作,且DCFTM的运行对
间设置不低于1秒,即使在极限的负载情况下也能正常工作,且DCFTM的运行对 系统上其它程序的运行性能影响在5%以下。
4.分析机群容错中问件有效性的主要方法就是评价其对系统可用性和应用可靠性的影 响.在第六章,我们采用随机回报网技术,分别从系统和用户两个角度建立了考虑 失效相关性的机群系统的可用性模型和机群并行应用的可靠性模型。通过对模型求 解后的结果分析表明:1)机群容错中间件技术对系统的可用性提高比较明显,而 机群组件问的失效相关性对系统的不可用性影响很大,在容错中间件的容错机制研 究中需要迸一步考虑遇制组件问的失效相关性;2)从用户角度看到的系统可用性 比从系统角度看到的系统可用性差别很大,只有当应用程序的故障覆盖率为l时, 应用的可靠性才能基本跟系统的可用性一致;3)机群中并行应用的可靠性对容错 中间件的依赖性很强,而覆盖率是影响并行应用程序可靠性的最为关键的因素。
关键词:机群,容错,中间件框架。分区机制,组服务,相关失效,随机回报网
n
AbstractK∞pmg
Abstract
K∞pmg system high available and applications reliable has been one ofthe most important
m龆渊in the research蝴of high perfornmce computin晷Cluster is the mainsneam
architectureforhigh performancc computingbecauseof沁low costandgood scalability.Andthe Ioose-coupling architecture betwceTi nod俗mak髂cluster system cosier to implement high available than centralized system.But with the scale of clust
您可能关注的文档
- 媒介融合背景下移动新闻客户端研究-传播学专业毕业论文.docx
- 活塞热冲击与随机传热过程的研究-动力机械及工程专业论文.docx
- 基于.NET技术的演艺人员档案信息管理系统设计与实现-软件工程专业论文.docx
- 机敏混凝土结构的电阻率层析成像研究-结构工程专业论文.docx
- 基因工程菌全细胞催化制备葡甘低聚糖-渔业专业论文.docx
- 混合励磁交直流多绕组同步发电机的研究-电机与电器专业论文.docx
- 活血化瘀方干预大鼠移植性肝癌MVD和VEGF的实验研究-中医内科学专业论文.docx
- 寄售库存的绩效研究-工商管理专业论文.docx
- 基于组合学的数据编码方法研究-计算机应用技术专业论文.docx
- 济南传统观演建筑艺术的探索与研究-设计艺术学专业论文.docx
文档评论(0)