互联网海量数据存储及处理的调研综述.docVIP

互联网海量数据存储及处理的调研综述.doc

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网海量数据存储及处理调研综述 摘 要 本文主要针对互联网应用中出现的新兴的海量数据存储和处理系统展开讨论,对比新兴系统与传统数据技术的差异,以及这些系统之间实现技术的不同特点,并总结出相应的关键技术问题。 近些年来,blog、wiki、spaces的兴起导致互联网内容的提供方式出现转变;用户创造内容的web2.0时代的到来,带动着视频应用、网络游戏、搜索引擎等互联网衍生业务迅速发展。互联网正处于一个信息爆炸的时代。面对信息爆炸的互联网,如何去存储和处理这些海量数据,对诸如Facebook、YouTube等大规模互联网企业提出了巨大的技术挑战,同时也开启了开阔的研究空间。本文将综述互联网数据存储以及处理技术的发展、研究状况,指出这方面研究的技术挑战和研究问题。 互联网应用种类繁多,包括Facebook、MySpace为代表的社会关系网络、Flickr为代表的图片共享应用、Youtube为代表的视频共享应用以及以Google、Yahoo为代表的搜索引擎应用等。这些互联网应用因为自己的应用特性不同,面对不断增长的互联网用户带来的不断增长的数据(视频、图片、blog等)所采用的技术路线不尽相似。但是,这些技术路线从本质上可以分为两个方面:海量数据的存储管理技术以及针对海量数据的处理技术(日志分析、搜索引擎应用等)。 本文剩下的部分主要从这三个部分展开论述。第1部分介绍互联网应用的特点,阐述海量数据带来的新特性;第2部分主要分析传统数据库在互联网应用中的局限性,并对比新兴系统与传统数据库系统的差异,讨论海量数据管理的关键技术;第3部分则介绍一些用于海量数据处理的系统,讨论它们的技术特点;最后,总结全文。 背景 随着互联网的快速发展,Blog、RSS、视频共享、图片共享等Web2.0应用的不断加入使得海量数据存储、管理和处理已经成为当今互联网公司面临的严峻问题。以c2c网站淘宝为例,2007年度淘宝的注册用户已经超过了4500万,商品总数也多达9000万,每天的页面点击率可达2亿多次;并且每天都有大量新用户注册,交易也在无时无刻进行中[1]。这些信息保存在存储设备上,便是高速膨胀的海量数据。同样的问题也出现在Google、Facebook、Flickr等互联网应用上,如表1所示。 应用类型 应用名称 规模 搜索引擎 Google 总量:10KB / doc * 20B docs = 200TB 每30天做一次索引:200TB / 30 days = 6TB / day SNS Facebook (2008) Page View:0.5KB / page view events * 3B page view events / day = 1.5TB / day Relationship:100M users * 5 events * 100 feed/event * 0.1KB/feed = 5TB / day 图片共享 Facebook (2007) 65亿张原始图片,每张图片保存为4~5个不同尺寸 图片总量达300亿张,共540TB 请求数:47.5万张/秒 (读) 1亿张/周 (上传) Flickr (2007) 原始图片存储总量达2PB 请求数:40亿张/天 (读) 40万张/天 (上传) 视频共享 Youtube (2007) 视频总量达600万个,共45TB 观看率超过一亿次/天,上传率达65000次/天 电子商务 淘宝 (2007) 4500万注册用户,9000万件商品,2亿次/天页面点击率 eBay (2007) 2.12亿注册用户,10亿张图片,1.05亿张商品列表,2PB数据 页面点击率10亿次/天, 并且从1999年至2006年页面点击率增长因子为35 表1 不同互联网应用的规模[1, 11, 39, 40, 41, 42] 这些互联网应用由于不同的应用特性在用户规模、存储数据规模等方面表现不尽相同。但是,从表1中我们依然可以看到这些互联网应用在面对海量数据时的一些共性,归纳如下: 用户群体大,增长速度快。 以电子商务领域为例,淘宝和eBay在2007年度的注册用户数量分别达到了4500万和2.12亿,并且用户数量在不断增长。在过去将近10年内,eBay的页面点击率增长到日均10亿次,并且增长因子为35。虽然页面点击量不能直接等同于用户数,但是高页面点击率以及增长率也从一定程度反应了该应用的用户群体规模和增长规模。同样,拥有上亿次上十亿次日均页面点击率的图片视频共享、SNS等互联网应用,也具有上述特点。 数据总量大,增长速度快。 不论是存储大量静态数据的图片视频共享服务,还是存在大量用户交互消息的SNS、电子商务服务,它们存储的数据总量均达到TB级别甚至PB级别。同时,每天40万张图片(F

文档评论(0)

185****7617 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档