厦大-大数据技术原理与应用-进阶学习自学教程-Spark快速入门指南-–-Spark的安装与基础使用.doc

下载文档

0
0
约1.45万字
约 15页
2024-08-02 发布于河南
举报
版权申诉
保障服务

厦大-大数据技术原理与应用-进阶学习自学教程-Spark快速入门指南-–-Spark的安装与基础使用.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

厦门大学林子雨编著

《大数据技术原理与应用》

进阶学习自学教程

Spark快速入门指南–Spark安装与基础使用

主讲教师：厦门大学数据库实验室

二零一六年一月

TOC\o1-3\h\z\u1 前言 1

2 准备工作 1

3 安装Spark 1

4 运行Spark示例 2

5 通过SparkShell进行交互分析 3

5.1 基础操作 4

5.2 RDD的更多操作 5

5.3 缓存 6

6 SparkSQL和DataFrames 6

7 SparkStreaming 8

8 独立应用程序（Self-ContainedApplication） 9

8.1 应用程序代码 9

8.2 安装sbt 10

8.3 使用sbt打包Scala程序 12

8.4 通过spark-submit运行程序 13

9 进阶学习 13

附录1:任课教师介绍 13

附录2：课程教材介绍 14

附录3：中国高校大数据课程公共服务平台介绍 15

厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习

Spark快速入门指南–Spark安装与基础使用

主讲教师：林子雨/linziyu第PAGE15页

《大数据技术原理与应用》

Spark快速入门指南–Spark安装与基础使用

主讲教师：E-mail:个人主页：/linziyu

前言

ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark正如其名，最大的特点就是快（Lightning-fast），可比HadoopMapReduce的处理速度快100倍。此外，Spark提供了简单易用的API，几行代码就能实现WordCount。本教程主要参考官网快速入门教程，介绍了Spark的安装，Sparkshell、RDD、SparkSQL、SparkStreaming等的基本使用。

本教程的具体运行环境如下：

CentOS6.4

Spark1.6

Hadoop2.6.0

JavaJDK1.7

Scala2.10.5

准备工作

运行Spark需要JavaJDK1.7，CentOS6.x系统默认只安装了JavaJRE，还需要安装JavaJDK，并配置好JAVA_HOME变量。此外，Spark会用到HDFS与YARN，因此请先安装Hadoop，具体请浏览Hadoop安装教程，在此就不再复述。

安装Spark

待Hadoop安装好之后，我们再开始安装Spark。

官网下载地址：/downloads.html

本教程选择的是Spark1.6.0版本，选择packagetype为“Pre-buildwithuser-providedHadoop[canusewithmostHadoopdistributions]”，再点击给出的下载连接/dyn/closer.lua/spark/spark-1.6.0/spark-1.6.0-bin-without-hadoop.tgz就可以下载了，如下图所示：

Packagetype

Sourcecode:Spark源码，需要编译才能使用，另外Scala2.11需要使用源码编译才可使用

Pre-buildwithuser-providedHadoop:“Hadoopfree”版，可应用到任意Hadoop版本

Pre-buildforHadoop2.6andlater:基于Hadoop2.6的预先编译版，需要与本机安装的Hadoop版本对应。可选的还有Hadoop2.4andlater、Hadoop2.3、Hadoop1.x，以及CDH4。

为方便，本教程选择的是Pre-buildwithuser-providedHadoop，简单配置后可应用到任意Hadoop版本。

下载后，执行如下命令进行安装：

sudotar-zxf~/下载/spark-1.6.0-bin-without-hadoop.tgz-C/usr/local/

cd/usr/local

sudomv./spark-1.6.0-bin-without-hadoop/./spark

sudochown-Rhadoop:hadoop./spark#此处的hadoop为你的用户名

安装后，需要在./conf/spark-env.

您可能关注的文档

文档评论（0）

聚好信息咨询 + 关注: 官方认证

服务提供商

本公司能够提供如下服务：办公文档整理、试卷、文档转换。

咨询作者（225人已咨询）已休息

认证主体鹤壁市淇滨区聚好信息咨询服务部

IP属地河南

统一社会信用代码/组织机构代码: 92410611MA40H8BL0Q

1亿VIP精品文档

更多 >

厦大-大数据技术原理与应用-进阶学习自学教程-Spark快速入门指南-–-Spark的安装与基础使用.doc