大规模分布式数据的管理与传输.ppt

下载文档 降价啦

4
0
约3.2千字
约 22页
2018-07-07 发布于天津
举报
版权申诉
保障服务

大规模分布式数据的管理与传输.ppt

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大规模分布式数据的管理与传输

大规模分布式数据的管理高能所计算中心程耀东中国·贵阳 2010-8-15 主要内容数据快速增长数据量增长到底有多快？视频、音频、图片… EMCIDC报告“数字宇宙十年—你是否准备好（2010.5.5）”称2010年数据量相当于750亿部16GB的iPad：摆满北京国家体育场(鸟巢)15.5次，伦敦温布利体育场 41次，台北101大楼23次， LHC隧道151次全球每人平均拥有11台iPad 福克斯电视台热门电视连续剧《24小时》连续播放1.25亿年数据量达到1.2ZB 1MB=1024KB 1GB=1024MB 1TB=1024GB 1PB=1024TB 1EB=1024PB 1ZB=1024EB 高能物理数据量 Hepix 2010 14个主要站点在线存储空间达到87PB，而2007年才14PB，增加了5倍多 WLCG 在线存储：62PB，近线存储：58PB 大型实验 LHC: 15PB/year BES: 累积5PB 数据管理需求数据量大 – 存的下高速访问 – 取得到广域分布 – 易分享长期保存 – 存的妥数据存储技术在IT界，存储技术一直很火，为什么？看似简单的需求，实际上要求很高数据存储技术从软件到硬件都在不断发展，以满足需求存储连接方式单机存储（DAS）? 网络存储（NAS, SAN）存储管理软件本地存储系统? 分布式网络存储系统存储连接方式直接连接存储 DAS: Direct-Attached Storage 计算与存储集中网络存储 FAS: Fabric-Attached Storage 存储与计算分离（一场革命）存储管理软件存储设备连接方式的变化，存储管理软件也随之发展本地文件系统管理本地的存储系统，为本地的应用服务在DAS以及SAN服务器上比较常见分布式网络存储管理系统将分布在网络上的存储设备统一管理，为多个连接在网络上的应用服务 NAS服务器上的网络文件系统（NFS,CIFS）以及分布式文件系统（AFS, Lustre）等趋势：数据量爆炸性的增长、计算模式的集群化发展、开放标准的存储设备，导致存储系统朝着集群化、分布式的方向发展典型的高能物理存储环境分布式存储系统典型结构存储管理的功能组件分布式存储管理系统共享Home目录 AFS, NFS 大型实验数据空间 GPFS, LUSTRE, XROOTD, dCACHE, CASTOR, HPSS 磁带迁移 HPSS, TSM, ENSTORE, CASTOR/STAGER 困惑有这么多的系统可以选择，是否值得高兴呢？值得高兴是肯定的，因为有系统可以用，但是同样也有不少困惑困惑一：如何选择？可扩展性客户端访问协议软件是否能够长期维护？困惑二：众多的存储系统，在网格环境下如何管理？网格强调：局部自治，全局统一因此，对于这点，不再仅仅是困惑，而是一个必须要解决的问题！ SRM 既然大家不能统一使用同一个存储系统，就只能通过标准化来解决 CERN, FNAL, DESY, INFN等单位成立标准工作组，制定了SRM（Storage Resource Manager ）接口标准包括了空间管理、文件管理、数据传输、协议发现等多组函数 WLCG网格存储管理其它领域以上的方案在高能物理领域应用非常广泛高能物理只是大规模分布式数据应用的其中一个，还有更多的领域，比如搜索、社交网站、WEB2.0等等每个领域的解决方案各有不同，但是核心都是采用分布式数据管理技术随着数据量的快速增长以及计算模式的改变，Google、Yahoo等公司，推出了以GFS、HDFS等为代表云计算存储试想这么一个例子：从一个1TB的文件中统计包含“IHEP”的行，如何来做？仅网络传输数据就需要大量时间!! Hadoop Hadoop文件系统HDFS将文件分成若干个数据块，并将它们放置在服务器群的计算节点中MapReduce就可以在它们所在的节点上处理这些数据 MapReduce简单过程传统的做法 Cat input | grep IHEP | sort| uniq –c |cat output MapReduce Input | Map | shufflesort | Reduce | Output 计算与存储的协同以GFS、HDFS等为代表云计算存储系统在设计时普遍遵守一个前提： “移动计算比移动数据划算” 存储系统在存储数据时把数据切成小块，任务调度器把计算任务正好调度到有数据的地方，直接在本地做计算，免去网络传输计算与存储的协同统一，是一次新的变革。事物的发展总是波浪式前进、螺旋式的上升其它特点可靠性设计设计时认为：”硬件故障是常态”