Spark大数据分析实务 教案 项目5 基于Spark SQL实现广告流量检测数据预处理 教案.docx

Spark大数据分析实务 教案 项目5 基于Spark SQL实现广告流量检测数据预处理 教案.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

项目5基于SparkSQL实现广告流量检测数据预处理

教案

课程名称:Spark大数据技术实务

课程类别:必修

适用专业:大数据技术类相关专业

总学时:64学时(其中理论32学时,实验32学时)

总学分:4.0学分

本章学时:12学时

材料清单

《Spark大数据技术实务》教材。

配套PPT。

引导性提问。

探究性问题。

拓展性问题。

教学目标与基本要求

教学目标

首先介绍DataFrame行列表增、删操作,通过DataFrame对象新增或删除得到新的DataFrame;接着介绍创建与使用用户自定义函数,可以根据特定的需求编写和调用用户自定义函数;然后介绍DataFrame表联合操作,并分别举例阐述联合操作的区别;最后介绍DataFrame行列表输出操作相关知识。基于知识介绍,对广告流量检测数据进行数据预处理,在删除缺失值后构建关键特征,将构建出来的特征合并输出保存至Hive表中。本项目的操作可为项目6介绍的模型的构建与评估提供数据特征服务。

基本要求

掌握DataFrame行列表的增、删操作方法。

掌握用户自定义函数的创建与使用方法。

掌握多种DataFrame表联合操作的方法。

掌握DataFrame保存数据的多种方式。

能够处理DataFrame中的缺失值。

能够实现DataFrame表联合操作。

能够创建和使用用户自定义函数。

能够按照不同需求采用不同方式保存DataFrame数据。

问题

引导性提问

引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。

DataFrame行列表除了查询操作,还有什么操作?

能否将两个DataFrame合并到一起操作?

如果Spark提供的函数不能满足统计分析需求,要通过什么方法实现其需求?

探究性问题

探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。

DataFrame表联合的方法有哪些?有何异同?

如何创建用户自定义函数?创建后又该如何使用?

要想保存处理好的DataFrame,有哪些方法可以实现?可以以什么形式保存?

拓展性问题

拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。

Spark提供的可操作对象除了DataFrame,还有什么?

按照数据分析流程,数据预处理后是什么操作?

主要知识点、重点与难点

主要知识点

新增数据列。

删除数据列。

创建与使用用户自定义函数。

5种join()方法。

根据特定字段进行表联合操作。

指定类型进行表联合操作。

使用Column类型进行表联合操作。

保存为文件。

保存为持久化的表。

使用drop语句删除数据。

自定义函数构建关键特征。

保存DataFrame数据至Hive表中。

重点

DataFrame行列表增、删、输出操作。

DataFrame表联合操作。

创建与使用用户自定义函数。

难点

创建与使用用户自定义函数。

教学过程设计

理论教学过程

SparkSQL简介。

配置SparkSQLCLI。

SparkSQL与Shell交互。

通过结构化数据文件创建DataFrame。

通过外部数据库创建DataFrame。

通过RDD创建DataFrame。

通过Hive表创建DataFrame。

printSchema():输出数据模式。

show():查看数据。

first(head(take(takeAsList():获取若干行记录。

条件查询。

查询指定字段的数据信息。

查询指定行数的数据。

排序查询。

分组查询。

实践教学过程

新增数据列。

删除数据列。

创建与使用用户自定义函数。

根据特定字段进行表联合操作。

指定类型进行表联合操作。

使用Column类型进行表联合操作。

保存为文件。

保存为持久化的表。

使用drop语句删除数据。

划分时间区间。

构建关键特征并保存至Hive表中。

保存DataFrame数据至Hive表中。

教材与参考资料

教材

郑浩森,张荣.Spark大数据技术分析[M].北京:人民邮电出版社.2024.

参考资料

[1] 肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.

[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.

[3] 张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档