基于Hadoop系统的数字档案馆建设研究.docxVIP

基于Hadoop系统的数字档案馆建设研究.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于Hadoop系统的数字档案馆建设研究

作者:云雅

来源:《办公室业务(上半月)》2018年第9期

【摘要】Hadoop系统在新型数字档案馆中的应用,对于数字档案馆建设起到了重要的支撑作用。本文结合新型数字档案馆中的技术特征,开展了Hadoop技术支持下的各功能系统构建研究。

【关键词】Hadoop系统;数字档案馆;系统建设

在我国的数字化档案管理研究中,数字化档案馆建设占据着十分重要的位置。而在新型数字档案馆建设中,以Hadoop系统为代表的数据处理技术发挥着重要作用。为此2016年海南省哲学社会科学规划课题“基于分布式系统的档案资源集成平台模式研究”【项目编号:HNSK(ZC)16-47】,并将其研究成果应用于数字化档案馆建设中,为新型数字化档案建设提供技术理论支持。

一、新型数字档案馆技术特征

与传统的数字档案馆相比较,新技术的应用是新型档案馆的主要特征。而在档案馆系统建设中,其主要的新技术包括了以下几类:

(一)Hadoop系统技术。在新型数字化档案馆系统建设中,Hadoop技术的应用极为广泛。Hadoop系统的应用主要是由于其具有HDFS数据储存与MapReduce数据处理两个主要系统。这两个系统在档案管理中可以发挥高效的储存与管理作用。在档案信息管理中,HDFS系统具有海量数据存储作用,实现PB级别数字档案的储存;而MapReduce则是一个高速的数据处理系统,实现了档案信息数据的高速处理。在实际的Hadoop系统实践应用中,其主要优势包括了较高的可靠性、系统存储与处理的高扩展性与错容性、数据处理的高效性以及较低的计算成本等诸多优势,因此在数字档案馆建设技术支持中得到了广泛应用。

(二)云技术的应用。在新型数字档案馆建设中,云技术是其数字化建设的重要组成部分。单就目前的建设过程而言,与Hadoop系统配合的云技术主要包括了云计算、云储存以及与共享体系三个主要内容。1.云计算技术。在当前的云技术研究中,云计算技术是依托互联网资源池,利用网络资源开展的一种计算模式。目前应用中较为常见的云计算模式包括了公有云、私有云以及混合云三种形式。在三种云计算模式中,私有云计算因其具有的可靠性与安全性能高、数据计算可扩展性能强、系统计算服务成本低以及较强的管理性能,已经成为新型数字档案馆采用的主要云计算模式。2.云存储。云存储技术是一种整合网络资源,形成的云平台数据存储与管理的计算服务系统。与传统储存技术相比较,这种技术具有接近无限的存储空间以及较高的数据存储安全性,对于大数据支持下数据存储量极大地数字化档案馆可以起到很好的数据存储作用。3.云共享体系。在当前的数字化档案馆建设中,档案资源的网络共享已经成为档案馆建设的重要内容。因此利用云平台建设高效安全的档案云共享体系,就成为档案馆建设技术研究者的重要研究内容。

二、数字档案馆建设技术应用

在数字化档案馆建设中存在的主要问题是如何解决内容复杂、数量庞大的各类照片、视频、电子公文、网页等文件,并将其进行有序的整理,进而实现档案的存储、借阅、共享等各项功能。在这些问题的解决过程中,技术人员应利用Hadoop分布式技术,将档案馆中所需的海量数据信息利用MapReduce系统处理后,再将数据信息存储到可扩展分布式数据库中,进而为档案馆建立一个与云平台合作的档案管理系统。

(一)档案馆网络平台架构总体建设。在档案馆数字化网络平台的建设中,其网络基础平台应由多个数据服务器集群组成,其中的核心系统包括了以下几个主要部分:一是数据档案馆Web服务器。二是档案信息存储使用的数据存储服务器。三是应对档案突发事故的容灾备份服务器。四是Hadoop系统自带的集群服务器。其中Hadoop集群服务器在网络平台构建中可以起到以下三个作用:首先是可以满足档案信息数据增加以及应用需求复杂变化性。其次是实现网络平台的扩展性。最后是实现网络平台用户的透明度。这个整体平台的建设,是数字档案馆数字建设的基础。

(二)档案数据管理平台系统设置。在数字档案馆数据管理平台建设中,其系统包括了数据存储、数据管理以及应用和接口三个主要系统。1.档案数据存储硬件设备。在当前的数字化档案数据存储中,硬件数据存储设备(物理硬盘)依然较为常见。这种设备在数字化档案管理中具有稳定、廉价的特征,主要用于储存档案馆自身数字转化为档案内容,如文化扫描后的文件、数字化后的视频音频文件等。2.网络平台的数据管理。数字档案馆除了自身的硬件数据库外,有云平台提供的海量数据存储处理也是其重要的数据管理内容。在这一管理搭建中,Hadoop系统的作用包括了以下两个主要组成部分:一是通过HDFS系统的海量存储优势,完成对云平台挖掘数据的储存。二是通过MapReduce、Hb

文档评论(0)

movie + 关注
实名认证
文档贡献者

喜欢分享的作者

1亿VIP精品文档

相关文档