大数据基础 课件 课件3-4 分布式计算概述.pptx

大数据基础 课件 课件3-4 分布式计算概述.pptx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

浙江经贸职业技术学院储与计算大数据存大数据基础Unit3《大数据基础》.移动商务营销课程群3.2.1分布式计算概述3.2.2MapReduce计算框架3.2分布式计算

3.2.1分布式计算概述1分布式计算的定义分布式计算技术是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。

3.2.1分布式计算概述2分布式计算的分类-批处理和流处理批处理流处理12按照对数据的处理时效分类实时产生的新的数据先被存储起来,在未来的某个时间一批批的处理。它可以基于预定的时间间隔如每五分钟、或每天等处理一次,或在某些触发的条件下如新的数据容量达到预定规模等。实时产生的新的数据会被实时的一条条的处理,而不会等待到未来的某个时刻一批处理。如今,越来越多的系统设计用于流处理,以支持近乎实时的事件处理。

3.2.1分布式计算概述2分布式计算的分类-批处理和流处理?批处理和流处理之间差异的含义尽管流处理和批处理之间的差异似乎只是时间差异的问题。但它们实际上对数据处理系统的体系结构和使用它们的应用程序都有着根本的影响。流处理系统的设计是为了在数据到达时对其进行响应。这就要求它们实现一个由事件驱动的体系结构,即系统的内部工作流设计为在接收到数据后立即连续监视新数据和调度处理。批处理系统中的内部工作流只定期检查新数据,并且只在下一个批处理窗口发生时处理该数据。

3.2.1分布式计算概述2分布式计算的分类-批处理和流处理处理场景批处理通常适用于具有最新数据并不重要的用例,以及容忍较慢响应时间的情况。例如,对历史数据进行离线分析以计算结果或识别相关性是一种常见的批处理用例。流处理对于需要实时交互和实时响应的情况是必需的。金融交易处理,实时欺诈检测和实时定价是最适合流处理的示例。

分布式计算概述3分布式计算常用框架?MapReduceHadoop的MapReduce是Google在2004年发布的分布式并行计算框架MapReduce论文的开源实现,是适合处理大级别量的离线数据批处理的分布式计算框架。它不适合处理大量的小文件和有实时性要求的任务。目前市面上有很多大数据框架,有突出代表性的如批处理计算框架MapReduce,流处理计算框架Storm,以及混合处理型计算框架Spark。

分布式计算概述3分布式计算常用框架?StormStorm是由类Lisp语言开发的一个用来处理实时的大数据的基于流处理的分布式计算框架。它的出现在一定程度上结束了Hadoop的MapReduce的延迟比较大,后期程序运维复杂等特点,而且它还有MapReduce所不能支持的实时性、流式计算等特点。对一些实时性的数据分析,Storm具有非常高的效率。

分布式计算概述3分布式计算常用框架?SparkSpark是使用Scala编写、基于RDD(ResilientDistributedDatasets)弹性分布式内存数据集的批处理的分布式计算框架。同时,Spark生态系统中还包括很多附加库,其中的SparkStreaming基于微批量方式的计算和处理,可以用于处理实时的流数据。该框架基于内存计算,解决了在Hadoop的MapReduce计算框架中,执行迭代性质的任务效率比较低的弊端,除此之外该框架还提供了任务执行期间的交互查询,增加了任务的可控性。相比Hadoop,Spark除了提供计算的方法调用之外,还提供了更多的操作。

《大数据基础》在线开放课程组《大数据基础》.移动商务营销课程群

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档