Python数据挖掘与机器学习第2版课件魏伟一第 10 章离群点检测；第 11 章本文和时序数据挖掘.pptx

下载文档

2
0
约3.27千字
约 69页
2024-11-11 发布于山东
举报
版权申诉
保障服务

Python数据挖掘与机器学习第2版课件魏伟一第 10 章离群点检测；第 11 章本文和时序数据挖掘.pptx

1、本文档共69页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Python数据挖掘与机器学习;第10章离群点检测;1离群点概述;1离群点概述;1离群点概述;1离群点概述;1离群点概述;1离群点概述;1离群点概述;2离群点的检测;2离群点的检测;2离群点的检测;2离群点的检测;2离群点的检测;2离群点的检测;2离群点的检测;2离群点的检测;2离群点的检测;2离群点的检测;3sklearn中的异常值检测方法;3sklearn中的异常值检测方法;本章小结;数据仓库与数据挖掘;本章内容

1.文本数据挖掘

2.时序数据挖掘;文本和时序数据挖掘;1.文本数据挖掘;1.文本数据挖掘;1.文本数据挖掘;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.词频-逆文本频率（TF-IDF）

词频-逆文本频率TF-IDF（TermFrequency–InverseDocumentFrequency）是一种用于信息检索与数据挖掘的常用加权技术。TF(TermFrequency)表示词条在文本中出现的频率，IDF(InverseDocumentFrequency)是逆文本频率指数，表示如果包含文本特征词w的文档越少，则说明w具有很好的类别区分能力。

;2.词频-逆文本频率（TF-IDF）

TF-IDF的优点是简单快速，易于理解，但是只用词频衡量文档中词的重要性还是不够全面，无法体现词在上下文中的重要性。因此虽然BoW和TF-IDF在各自方面都很受欢迎，但在理解文字背景方面仍然存在空白。因此又出现了Word2Vec、CBOW、Skip-gram等词嵌入技术。

在scikit-learn中，有两种方法进行TF-IDF的预处理。第一种方法是在用CountVectorizer类向量化之后再调用TfidfTransformer类进行预处理。另一种方法则直接用TfidfVectorizer完成向量化与TF-IDF预处理。

;2.4文本分类

文本分类是文本分析中的一项重要工作。给定文档集合和预先定义的类别集合，文本分类是将文档划分到一个或多个类别中。文本分类中最常见的应用场景是垃圾邮件分类以及情感分析。文本分类过程包括文本预处理、特征提取和训练分类器三个阶段。

文档表征为特征向量之后，就可以选择使用分类算法进行训练。常用的分类算法有贝叶斯模型、随机森林、SVM、KNN和神经网络等。

;2.4文本???类

【例11-3】文本分类示例

THUCNews是根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成，包含74万篇新闻文档。原始新浪新闻数据集整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。我们随机从中抽取4456篇文档进行文本分类训练，随后抽取1902篇文档进行新闻分类预测。采用的模型是传统的朴素贝叶斯模型和支持向量机模型。

;2.5文本聚类

文本聚类旨在将相似的文档划分为簇，使得同一簇中文档相似性较大，而簇之间的相似性则较小。

;2.6文本可视化

文本可视化技术把用文字符号表示的信息转化为用图形、图像或动画表示的信息，其目的在于让人直观地观察到核心信息和关键数据，从而快速发现其中蕴含的知识。

;随着云计算和物联网等技术的发展，时间序列数据的数据量急剧膨胀。高效分析时间序列数据，使之产生业务价值成为一个热门话题。时间序列分析广泛应用于股票价格、广告数据、气温变化、工业传感器数据、个人健康数据、服务器系统监控数据和车联网等领域中。

;?;2.时间序列分析

时间序列分析是一种动态数据处理的统计方法，该方法基于随机过程理论和数理统计学方法，研究随机数据序列所遵从的统计变化规律，以解决实际问题。通常影响时间序列变化的要素有长期趋势、季节变化、循环波动和随机因素。

（1）长期趋势（T）：是时间序列在长时期内呈现出来的持续向上或持续向下的变动。

（2）季节变动（S）：是时间序列在一年内重复出现的周期性波动。

（3）循环波动（C）：是时间序列呈现出的非固定长度的周期性变动。

（4）随机因素（I）：是时间序列中除去长期趋势、季节变动和循环波动之后的随机波动。不规则波动通常总是夹杂在时间序列中，致使时间序列产生一种波浪形或震荡式的变动。

;2.2时间序列平稳性和随机性判定

平稳性是时间序列的一个属性，一个平稳的时间序列指的是这个时间序列和时间无关，也就是说，如果一个时间序列是平稳的，那么这个时间序列的统计量均值、方差和自相关系数都是一个常数，和时间无关。

1.时间序列数据平稳性检验

在做时间序列分析时，经

您可能关注的文档

文档评论（0）

lai + 关注: 实名认证

内容提供者

精品资料

咨询Ta 进入空间

用户编号：7040145050000060

1亿VIP精品文档

更多 >

Python数据挖掘与机器学习第2版课件魏伟一第 10 章离群点检测；第 11 章本文和时序数据挖掘.pptx