- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
厦门大学林子雨编著
《大数据技术原理与应用》
进阶学习自学教程
Spark快速入门指南–Spark安装与基础使用
主讲教师:厦门大学数据库实验室
二零一六年一月
目录
目录
TOC\o1-3\h\z\u1 前言 1
2 准备工作 1
3 安装Spark 1
4 运行Spark示例 2
5 通过SparkShell进行交互分析 3
5.1 基础操作 4
5.2 RDD的更多操作 5
5.3 缓存 6
6 SparkSQL和DataFrames 6
7 SparkStreaming 8
8 独立应用程序(Self-ContainedApplication) 9
8.1 应用程序代码 9
8.2 安装sbt 10
8.3 使用sbt打包Scala程序 12
8.4 通过spark-submit运行程序 13
9 进阶学习 13
附录1:任课教师介绍 13
附录2:课程教材介绍 14
附录3:中国高校大数据课程公共服务平台介绍 15
厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习
Spark快速入门指南–Spark安装与基础使用
主讲教师:林子雨/linziyu第PAGE15页
《大数据技术原理与应用》
Spark快速入门指南–Spark安装与基础使用
主讲教师:E-mail:个人主页:/linziyu
前言
ApacheSpark是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark正如其名,最大的特点就是快(Lightning-fast),可比HadoopMapReduce的处理速度快100倍。此外,Spark提供了简单易用的API,几行代码就能实现WordCount。本教程主要参考官网快速入门教程,介绍了Spark的安装,Sparkshell、RDD、SparkSQL、SparkStreaming等的基本使用。
本教程的具体运行环境如下:
CentOS6.4
Spark1.6
Hadoop2.6.0
JavaJDK1.7
Scala2.10.5
准备工作
运行Spark需要JavaJDK1.7,CentOS6.x系统默认只安装了JavaJRE,还需要安装JavaJDK,并配置好JAVA_HOME变量。此外,Spark会用到HDFS与YARN,因此请先安装Hadoop,具体请浏览Hadoop安装教程,在此就不再复述。
安装Spark
待Hadoop安装好之后,我们再开始安装Spark。
官网下载地址:/downloads.html
本教程选择的是Spark1.6.0版本,选择packagetype为“Pre-buildwithuser-providedHadoop[canusewithmostHadoopdistributions]”,再点击给出的下载连接/dyn/closer.lua/spark/spark-1.6.0/spark-1.6.0-bin-without-hadoop.tgz就可以下载了,如下图所示:
Packagetype
Sourcecode:Spark源码,需要编译才能使用,另外Scala2.11需要使用源码编译才可使用
Pre-buildwithuser-providedHadoop:“Hadoopfree”版,可应用到任意Hadoop版本
Pre-buildforHadoop2.6andlater:基于Hadoop2.6的预先编译版,需要与本机安装的Hadoop版本对应。可选的还有Hadoop2.4andlater、Hadoop2.3、Hadoop1.x,以及CDH4。
为方便,本教程选择的是Pre-buildwithuser-providedHadoop,简单配置后可应用到任意Hadoop版本。
下载后,执行如下命令进行安装:
sudotar-zxf~/下载/spark-1.6.0-bin-without-hadoop.tgz-C/usr/local/
cd/usr/local
sudomv./spark-1.6.0-bin-without-hadoop/./spark
sudochown-Rhadoop:hadoop./spark#此处的hadoop为你的用户名
安装后,需要在./conf/spark-env.
您可能关注的文档
- 厦大大数据技术原理与应用第七章MapReduce.ppt
- 厦大大数据技术原理与应用第三章分布式文件系统HDFS.ppt
- 厦大大数据技术原理与应用第十六章Spark.ppt
- 厦大大数据技术原理与应用第十四章基于Hadoop的数据仓库Hive.ppt
- 厦大大数据技术原理与应用第十五章Hadoop架构再探讨.ppt
- 厦大大数据技术原理与应用第四章分布式数据库HBase.ppt
- 厦大大数据技术原理与应用第五章NoSQL数据库.ppt
- 厦大-大数据技术原理与应用-自学教程-Hadoop上的数据仓库Hive初级实践教程.doc
- 厦大林子雨编著-大数据技术原理与应用-电子书-第14章-基于Hadoop的数据仓库Hive(2016年4月6日版本).pdf
- 厦大林子雨编著-大数据技术原理与应用-电子书-第16章-Spark(2016年4月20日版本).pdf
文档评论(0)