Spark大数据分析实务 教案 项目6 基于Spark MLlib实现广告流量检测违规识别模型构建与评估 教案.docx

Spark大数据分析实务 教案 项目6 基于Spark MLlib实现广告流量检测违规识别模型构建与评估 教案.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

项目6基于SparkMLlib实现广告流量检测违规识别模型构建与评估

教案

课程名称:Spark大数据技术实务

课程类别:必修

适用专业:大数据技术类相关专业

总学时:64学时(其中理论32学时,实验32学时)

总学分:4.0学分

本章学时:12学时

材料清单

《Spark大数据技术实务》教材。

配套PPT。

引导性提问。

探究性问题。

拓展性问题。

教学目标与基本要求

教学目标

首先介绍SparkMLlib算法库,并介绍SparkMLlib中的算法与算法包,详细举例介绍SparkMLlib的数据类型、特征提取、回归算法以及分类算法等。最后介绍SparkMLlib的评估器以及对模型的评估。基于知识介绍,在对广告流量检测数据进行数据标准化后,划分训练数据和测试数据,通过逻辑回归和随机森林两种算法对广告流量检测数据构建模型,并对两种分类模型进行评估对比,根据对比结果选择随机森林模型用于广告流量检测违规识别。通过本项目的模型构建,识别广告流量数据中的作弊流量,可以减少投放广告时的客户损失。

基本要求

了解SparkMLlib算法库。

熟悉SparkMLlib中的算法与算法包。

掌握SparkMLlib的评估器与模型评估的使用方法。

能够掌握SparkMLlib特征提取的方法。

能够使用SparkMLlib回归与分类相关算法包构建模型。

能够使用SparkMLlib评估器对模型进行评估。

问题

引导性提问

引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。

是否了解过机器学习?

机器学习算法有哪些?

Spark是否提供了机器学习算法包?

探究性问题

探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。

常用的机器学习算法有哪些?

MLlib输入算法的数据类型通常有哪些?

通过MLlib调用算法时,分类算法的输入数据要求哪种类型,聚类、推荐算法呢?

拓展性问题

拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。

MLlib是基于RDD的算法库,ML是基于DataFrame的算法库,分析一下这两个库的优点?

MLlib可以调用模型的save方法将模型保存,查看模型保存的信息,列举出模型具体保存了哪些信息?

主要知识点、重点与难点

主要知识点

了解机器学习算法。

SparkMLlib简介。

数据类型。

基本统计。

管道。

特征提取。

特征处理。

回归。

分类。

聚类。

关联规则。

智能推荐。

掌握SparkMLlib的评估器与模型评估。

使用spark.ml.classification模块构建分类模型。

使用评估器实现模型评估。

重点

特征提取。

特征处理。

模型构建与评估。

难点

特征提取。

特征处理。

模型构建与评估。

教学过程设计

理论教学过程

了解机器学习算法。

SparkMLlib简介。

数据类型。

基本统计。

管道。

特征提取。

特征处理。

回归。

分类。

聚类。

关联规则。

智能推荐。

掌握SparkMLlib的评估器与模型评估。

实践教学过程

基本统计。

管道。

特征提取。

特征处理。

回归。

分类。

聚类。

关联规则。

智能推荐。

数据归一化。

构建建模样本。

使用逻辑回归算法实现广告流量检测违规识别。

使用随机森林算法实现广告流量检测违规识别。

使用评估器实现模型评估。

教材与参考资料

教材

郑浩森,张荣.Spark大数据技术分析[M].北京:人民邮电出版社.2024.

参考资料

[1] 肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.

[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.

[3] 张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档