教学资源共享平台云存储性能优化设计.docxVIP

教学资源共享平台云存储性能优化设计.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

教学资源共享平台云存储性能优化设计

?

?

摘要:教学资源共享平台云存储功能是基于Hadoop框架而设计,教学资源具有文件数量庞大,小容量文件占比较高的特点,HadoopHDFS文件系统对小文件访问效率较低,通过构建小文件合并存储的索引结构及合并算法,解决小文件存储效率问题,实现对云存储性能的优化。

关键词:教学资源;共享平台;优化设计

中图分类号:TP393文献标识码:A文章编号:1009-3044(2018)33-0018-02

1引言

本文阐述的教学资源共享平台是基于云存储技术应用层的业务系统,众所周知教学资源包含课件、教案、教学案例、教学视频、历届学生课程考试作品、参考资料等内容,文档数目多,数据容量庞大,若不注重平台性能优化设计,随着系统运行不断数据积累,系统性能问题逐步呈现,需要从低层到顶层综合考虑性能优化的设计问题。

2教学资源共享平台的性能问题分析

教学资源共享平台性能问题主要集中在数据检索速度随着数据量的日益增长而下滑,系统并发量的增长而导致性能下滑,数据库及WEB服务死鎖导致服务器资源耗尽,在叠加网络基础设施外围不利因素影响下,平台访问性能表现在数据拥堵,甚至系统崩溃。

教学资源共享平台为了解决存储扩展及服务伸缩能力,系统设计划分为存储层、基础管理层、应用接口层、访问层,并采用Hadoop作为分布式数据存储和计算框架。由于系统基于Hadoop框架技术进行设计,通过分布式文件系统HDFS实现的数据存储集群。HDFS将文件数据拆分为若干Block(数据块)分布存储在不同的DataNode(数据节点)上面,并在NameNode记录元数据。在Hadoop1框架Block大小的默认为64M,Hadoop2的Block默认为128M,如果系统大批量存入容量小于Block数据块的小文件,会造成系统读取数据时在不同的数据节点高频次跳转,严重影响系统性能。

其次,云存储的特点是用户数据有重复率较高,解决数据冗余主要手段是重复数据删除技术,重复数据删除技术是一种可自动搜索重复数据,将相同文档或数据块仅保留一份数据作为数据正本,与其相同的文档或数据块采用映射指针的形式作为数据副本,以达到消除冗余数据、减少客户端与服务端之间数据传输、降低存储容量需求的技术目的。

3性能优化设计

大多数教学资源文件是属于小于Block块的小文件,为了能够解决小文件影响存储性能问题,通常考虑将小文件合并成大于Bock快的文件,Hadoop框架也提供文件合并技术手段,包括HAR、SequenceFile、CombineFileInputFormat等都可以实现小文件的合并。为了便于对合并数据的访问,需要对小文件的合并建立相应的索引结构,同时还要考虑小文件合并策略的设计问题。

3.1索引结构的建立

常规的做法是将容量大于Block块的文件直接递交给HDFS文件系统,容量小于Block块的文件由小文件合并处理模块实现合并访问,再对接HDFS文件系统存储合并文件。小文件合并建立相应的索引结构,同时教学资源共享平台需要实现重复数据删除技术,也需要设计索引结构来实现对重复文件访问的映射。为了提高系统性能,本文考虑对小文件合并、重复文件访问映射这两个需求统一建立一套索引结构,使小文件合并访问索引、重复文件访问映射索引统一处理,减少索引操作次数,进一步提高系统性能。索引结构如图1所示。

在索引结构图中,以文件名作为小文件的FileKey,其Value值包含数据块地址FileBlock、文件在数据块中的地址偏移量FileOffset,文件长度FileLength,小文件数据指纹Hash,数据指纹作为判断数据重复文件的特征值。其中,IndexFileStructure作为小文件的索引表,根据索引信息指向对应的合并文件数据块DataBlock,数据块里面包含了小文件的描述信息及文件内容,当用户上传教学资源文件是,通过客户端插件获取待上传文件的Hash,跟索引表当中的Hash比对,若发现相同的Hash值可认为云存储空间已存在相同文件,对重复文件访问做生成相应访问链接,避免在服务器存储相同的文件数据副本,节省了客户端向服务器传输文件的时间及网络带宽。

3.2小文件合并策略

小文件合并逻辑的设计应尽量有利于数据块的集中访问,减少跨DataNode访问次数,文件数据访问集中度跟文件类型、内容相关性都有很大关系。例如,如果用户正在访问图片,大概率会同时访问多张图片,如果用户正在访问PPT文件,大概率同时访问相关内容的其它PPT文件。为此,在用户向云端上传教学资源时,尽量采集更多内容属性(如学科分类、课程分类、课程名称、章节名称、知识点、内容关键词、相似课程资源的历史访问热度等)作为云存储的元数据,元数据可以转化为文件存储分类算法所需的

文档评论(0)

134****8507 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档