Spark大数据处理技术.pdfVIP

下载本文档

0
0
约27.78万字
约 648页
2024-03-12 发布于山西
举报
版权申诉

Spark大数据处理技术.pdf

1、本文档共648页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《Spark》大数据处理技术

汇报人：璞

第1章

Spark基础

汇报人：璞

第1章Spark基础

1.1初识Spark

1.2Spark应用场景

1.3Spark生态系统

1.4Spark与Hadoop对比

1.5Spark多语言编程

本章小结

《Spark大数据处理技术》第1章Spark基础

1.1初识Spark

《Spark大数据处理技术》第1章Spark基础

1.1初识Spark

Spark是专为大规模数据处理而设计的快速通用计算引擎，它能

更好地适用于数据挖掘和机器学习中需要迭代的算法。本章内容是

带领读者走进Spark，了解Spark的发展历史，了解Spar应用场景，

Spark的生态系统；通过比较Spark与Hadoop体会Spark的优点和独

有特点；简单对比Spark三种编程语言，了解Scala语言的优势。

《Spark大数据处理技术》第1章Spark基础

1.1初识Spark

1.1.1Spark的简介

Spark是一种基于内存计算的框架，是一种通用的大数据快速处理引擎。Spark是

加州大学伯克利分校的AMP实验室（UCBerkeleyAMPlab）所开发的，可用来构建

大型的、低延迟的数据分析应用程序。Spark是一种与Hadoop相似的开源集群计算

环境，二者之间有很多相似之处，但也存在诸多差异，由于Spark启用了内存分布数

据集，所以Spark在某些工作负载方面表现得比Hadoop突出，除了能够提供交互式查

询外，还可以优化迭代工作负载。Spark是基于Scala语言实现的，Scala作为Spark

的应用程序框架，二者能够紧密集成，Scala可以像操作本地集合对象一样轻松地操

作Spark分布式数据集。Spark和Hadoop作为大数据处理的两种关键技术，Spark

支持在分布式数据集上进行迭代作业，也可以在Hadoop文件系统中并行运行，但需

要通过名为Mesos的第三方集群框架支持。

《Spark大数据处理技术》第1章Spark基础

1.1初识Spark

1.1.2Spark发展

2009年，Spark诞生于美国加州大学伯克利分校的AMP实验室。2010年，

Spark通过BSD许可协议正式对外开源发布。2012年，Spark第一篇论文发布，

第一个正式版本发布。2013年，加入Apache孵化器项目，之后获得迅猛的发展，

并于2014年正式成立；发布了SparkStreaming、SparkMLlib、SparkonHadoop。

2014年，Spark成为Apache软件基金会的顶级项目；5月底Spark1.0.0发布；发布

SparkGraphx、SparkSQL，SparkonHadoop被SparkSQL取代。

《Spark大数据处理技术》第1章Spark基础

1.1初识Spark

1.1.2Spark发展

2015年，Spark1.3.0发布，该版本发布的最大亮点是新引入的DataFrameAPI，

对于结构型的DataSet，它提供了更方便更强大的操作运算。除了DataFrame之外，

还值得关注的一点是SparkSQL成为了正式版本，它在国内IT行业得到普遍应用，许

多公司开始重点部署或者使用Spark来替代MapReduce、Hive、Storm等传统的大数

据计算框架。

2016年，Spark1.6.0发布，该版本主要展示三个方面的主题：新的DatasetAPI

带来的性能提升（streamingstatemanagement十倍的性能提升），大量新

您可能关注的文档

文档评论（0）

xiadaofeike + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：8036067046000055

1亿VIP精品文档

更多 >

Spark大数据处理技术.pdfVIP