大数据平台介绍pptV2.0.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
并行读取 共享磁盘访问 高扩展性 高可靠性 大数据平台的优势 数据本地化 弹性计算 高容错 高效性 通过以上五个案例,我们可以总结出大数据平台的以下几点优势: 并行读取 read write write NameNode DataNode2 …… DataNode1 DataNode N DataNode3 write read read write read 等同于Master的地位,主 要负责管理hdfs文件系统, 接受来自客户端的请求。 在slave机器上运 行,主要是用来 存储数据文件。 一次写入, 多次读取。 数据本地化 数据分块存储在DataNode上,每个节点会有TaskTracker去运行JobTracker分配的任务,TaskTracker运行的任务数量由核与内存决定,任务是数据本地化的,TaskTracker可以同时运行多个任务。 NameNode …… split1 DataNode1 TaskTracker1 split2 DataNode2 TaskTracker2 splitN DataNodeN TaskTrackerN heartbeat heartbeat heartbeat JobTracker 共享磁盘访问 Dataset1 Dataset2 DFS Block1 BlockN Block2 DataNode1 Block3 Block4 DataNode2 DataNodeN DFS存储系统将数据集1(Dataset1),数据集2(Dataset2)分布存储在DataNode上。可共享对这些数据集的访问。 弹性计算 创智云分布式文件系统以创智云平台为底层架构,实现了资源的快速部署和自动收缩。 IaaS层 创智云平台 Dataset Master 传入文件大小参数 存入DFS的Master 计算出所需主机,创建主机 node node node node node node node node …… 作业结束,发送信号 释放主机资源 高扩展性:每增加一台服务器,就能将其同等的计算能力接入到集群中。通过MapReduce,应用程序可以在超过1000个节点的大型集群上运行,并提供经过优化的错误容灾。 高容错:创智云分布式文件系统在写数据的时候将每个数据块自动保存多个数据副本(至少3个),确保在发生块、磁盘或机器故障后数据不会丢失,自动重新分配失败的任务。 高可靠性:创智云分布式文件系统中将文件的元数据与文件块分开,文件以块形式进行存储,文件的所有块并不需要存储在同一个磁盘上。因此它们可以利用集群上的任意一个磁盘进行存储。且每个块复制到少数几个独立的机器上(默认为3个),可以确保在发生块、磁盘或机器故障后数据不会丢失。如果发现一个块不可用,系统会从其他机器读取另一个复本。 高效性:创智云分布式文件系统通过心跳,采用Pull的方式调度任务,减少了大量的状态。Pull(拉)的方式,即隔一段时间就去服务器上获取信息,看是否有更新的信息出现再在节点之间动态地移动数据,并保证各个节点的动态平衡和高效处理。 QA 模板来自于 * 大数据平台介绍 目录 传说的大数据“是”什么 我们的大数据“做”什么 传说的大数据“是”什么 大数据的背景 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以前更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出“大数据”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。 大数据时代 数据仓库 和数据挖掘 数据库 管理系统 文件系统 纸质数据 大数据的定义 大数据(big data),或称巨量资料,指的是一个体量特别大、数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。 体量 价值密度 速度 多样性 Volume Variety Velocity Value 大数据的特征 四个“V” 体量(Volume) 非结构化数据的超大规模和增长 总数据量的80%~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 体量 价值密度 速度 多样性 Volume Variety Velocity Value 大数据的特征 四个“V” 多样性(Variety) 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句意 体量 价值密度 速度 多样性 Volume Variety Velocity Value 大数据的特征 四个“V” 价值密度(Value) 大量的不相关信息 对未来趋势与

文档评论(0)

163 + 关注
实名认证
内容提供者

知识分享

1亿VIP精品文档

相关文档