- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE 1
《Spark大数据处理》课程教学大纲
一、课程基本信息
课程编号:12154
课程名称:Spark大数据处理
英文名称:Spark Big Data Processing
课程类型:专业课
课程要求:必修
学时/学分:48/3(讲课学时:34 实验学时:14)
先修课程:数据库系统原理、分布式计算框架基础、分布式计算框架组件技术
后续课程:大数据项目综合实践
适用专业:数据科学与大数据技术
二、课程描述
Spark是基于内存计算的并行计算框架,适合于数据挖掘与机器学习中的并行计算。学习Spark大数据处理技术是进入大数据应用开发领域必不可少的一步。课程以任务为导向,旨在引导学生掌握Spark大数据技术的相关知识,具备Spark的开发能力。课程内容涉及Scala基础、Spark编程、Spark SQL结构化数据文件处理、Spark Streaming实时计算框架、Spark GraphX 图计算框架,以及Spark MLlib算法库。通过课程学习,使学生能够深刻理解Spark基本原理与架构,掌握集群安装配置、Scala与Spark编程、Spark代表性组件的使用,能够基于Spark解决大数据领域复杂工程问题,能够分析、设计、实现满足特定需求的分布式系统。
三、课程教学目标
1.了解主流的大数据处理框架及其之间的差异;了解Spark生态环境;掌握Spark编程及核心组件;能够根据实际应用合理选择大数据处理框架,具备解决大数据领域复杂工程问题的基本知识和能力。(支持毕业能力要求1)
2.能够安装和配置Spark集群环境;了解Spark SQL的基本原理,能够进行结构化数据文件的处理;理解Spark Streaming的运行原理,能够基于Spark DStream模型进行实时计算;利用Spark GraphX进行图计算;具备Spark的开发能力,能够分析、设计、实现满足特定需求的大数据分布式处理系统,增强学生的创新意识。(支持毕业能力要求3)
四、教学内容、安排及与教学目标的对应关系
序号
教学内容
教学要求
学时
教学
方式
对应课程教学目标
1
一、Spark概述
1.1 Spark基本概念
1.2 Spark发展和应用
1.3Spark环境配置方法
Spark架构及原理
(1)了解Spark的发展历史及特点;(2)能够搭建Spark分布式环境;(3)了解Spark的架构,能够阐述Spark作业的运行流程;(4)了解Spark的核心数据集RDD。
4
讲授
1
2
Scala基础
2.1 Scala简介
2.2 Scala特性
2.3 Scala的环境设置及安装方法
2.4 Scala类的定义和运行方法
2.5 Scala数据类型、函数、表达式的应用
2.6 Scala if判断和for循环
2.7Scala集合应用
(1)了解Scala基本特性并学会安装Scala;(2)能够正确定义Scala的常量、变量及函数;(3)能够正确使用Scala的if判断和for循环;(4)能够正确进行Scala的Collections(集合)操作;(5)了解Scala类及读取文件。
6
讲授
讨论
1
3
实验1:Scala安装与编程
(1)能够正确安装Scala;(2)完成文本过滤和杨辉三角形程序设计。
2
实验
1
4
三、Spark编程
3.1从内存中已有数据创建RDD
3.2从外部存储创建RDD
3.3 RDD转化操作和行动操作方法
3.4 RDD键值对操作
3.5文件读取与存储
(1)能够创建RDD;(2)能够进行RDD的转化操作和行动操作;(3)掌握键值对RDD的操作;(4)能够正确进行文本文件的读取和存储。
4
讲授
讨论
1
5
实验2:Spark编程初步
(1)学会创建RDD;(2)掌握Spark的操作方法以及Spark Shell命令行的使用;(3)完成学生成绩统计和单词计数程序设计。
2
实验
1
6
四、Spark编程进阶
4.1下载与安装IntelliJ IDEA
4.2 Scala插件安装与使用
4.3配置Spark运行环境的方法
4.4运行Spark程序的方法
4.5持久化方法
数据分区方法
(1)能够在IDEA中配置Spark编程环境;(2)掌握如何新建工程和运行工程;(3)掌握运行Spark程序的方法;(4)了解数据分区与持久化的方法。
4
讲授
讨论
练习
1
7
实验3:复杂Spark编程
(1) 能够在IntelliJ IDEA中搭建Spark开发环境,以及编程和运行程序;(2)完成竞赛网站访问日志分析。
4
实验
1
8
五、Spark SQL:结构化数据文件处理
5.1 Spark SQL简介
5.2 Spark SQL CLI配置
5.3 Spark SQL与Shell交互
5.
您可能关注的文档
- 金工实习教学大纲.docx
- 认识实习教学大纲.docx
- 水污染控制工程课程设计教学大纲.docx
- 《常用财务软件》 课程介绍与教学大纲.doc
- 财经法规与职业道德 课程介绍与教学大纲.doc
- 财务分析 课程介绍与教学大纲.doc
- 财务管理实务 课程介绍与教学大纲.doc
- 财务管理原理 课程介绍与教学大纲.doc
- 成本与管理会计 课程介绍与教学大纲.doc
- 大学英语(1) 课程介绍与教学大纲.doc
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
文档评论(0)