- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第十章数据降维数据降维是缓解维数灾难常用方法之一,是将原始数据映射到低维子空间,以达到降低维度的目的,这个过程中数据的特征发生了本质的变化,新的子空间的特征不再是原来的特征,因此不存在完全无损的降维方法,区别只是损失多少的问题.针对研究对象,我们通常会收集一系列特征属性,对研究对象进行分析,属性越多,越有利于细致研究分析。但是随着属性增多,也会增加后续数据处理的运算量,带来较大的处理负担。1
10.1数据降维概述数据降维方法从不同角度可以分为不同的类别,根据数据的特性划分,有线性降维和非线性降维;根据是否利用数据的监督信息划分,有无监督降维、有监督降维和半监督降维;根据是否保持数据的结构划分,有全局保持降维、局部保持降维和全局与局部保持一致降维等。需要根据特定的问题选择合适的数据降维方法.本章主要介绍常见的两种数据降维技术:主成分分析(PrincipalComponentAnalysis,简称PCA)、线性判别分析(LinearDiscriminantAnalysis,简称LDA)。2
10.2主成分分析3主成分分析(PrincipalComponentAnalysis,PCA)主要用于发现数据中变量之间的关系,是数据分析的有力工具,是一种常用的无监督学习方法,其原理是通过通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分,它是原特征的线性组合,其个数通常小于原始变量的个数。
10.2主成分分析PCA算法原理:(1)由于样本的属性特征维数较高,相互之间存在关联关系.为了消除相关性,对原始属性进行线性线性组合,找到一组彼此不相关的属性特征;(2)在新的属性特征中,删除一些不重要的特征,保留较少特征数,同时保证损失较小.利用线性代数的知识对此进行解释:?4
10.2.1PCA算法原理???5
????10.2.1PCA算法原理6
对于二维降一维问题,只需要找到一个基向量就够了,即方差最大化就够了。但对于更高维的问题,还有其他基向量需要求解.10.2.1PCA算法原理7例如,三维降二维,第一个基向量通过方差找到,第二个如果也利用方差,那么它与第一个基向量几乎重合.我们希望第二个基向量与第一个线性无关,而协方差可以表示样本某两个属性的相关性.当协方差为0时,表示样本的某两个属性独立。由上述讨论知,我们希望单个属性上方差最大,两两属性间协方差为0。为将二者统一,我们考虑协方差矩阵。
10.2.1PCA算法原理??那么同样地,可以推广至更高维。8?
10.2.1PCA算法原理若要找到一组新的正交基,使得在这组基下的样本集的协方差矩阵为对角阵,并且为了找到最大方差,对角线上元素应从大到小排列。????9
10.2.1PCA算法原理?利用特征值分解利用奇异值(SVD)分解???10
10.2.1PCA算法原理那么此时???SVD降维与特征值降维虽然原理一致,但不需要计算协方差矩阵,节省了计算量。11
10.2.1PCA算法原理贡献率???对于利用SVD实现的降维,我们可以利用奇异值衡量,将上面两个公式中的特征值替换为对应的奇异值即可。?12
10.2.2特征值分解降维利用特征值和特征向量实现PCA算法基本步骤:???????????13
10.2.3奇异值分解降维利用SVD实现PCA算法基本步骤:?????????14
10.3线性判别分析(LinearDiscriminantAnalysis,简称LDA)LDA是一种经典的线性学习方法、分类算法,也是一种有监督降维方法。基本思想将数据投影到低维空间上,并且希望投影后的数据点满足:同一类别尽可能“接近”,不同类别尽可能“远离”。15
10.3线性判别分析(LinearDiscriminantAnalysis,简称LDA)算法原理(以二分类问题为例):?16
10.3线性判别分析?17
10.3线性判别分析二分类问题(1)广义Rayleigh商?????18
10.3线性判别分析(2)类内散度????19
10.3线性判别分析??那么投影后的两类样本的方差和为???定义类内散度矩阵为20
10.3线性判别分析(3)类间散度?(4)LDA模型(二分类)?21
10.3线性判别分析??22
10.3线性判别分析多分类问题??类内散度重新定义为每个类别的协方差矩阵之和:?类间散度为:23??全局散度矩阵定义为全局协方差矩阵?
10.3线性判别分析LDA模型(多分类)?目标函数??24
10.3线性判别分
您可能关注的文档
- 机器学习算法与实践 习题答案 郭羽含.docx
- 机器学习算法与实践 教案全套 郭羽含 第1--12章 机器学习概述---神经网络.docx
- 机器学习算法与实践 教学大纲.docx
- 机器学习算法与实践 课件 第1章 机器学习概述.pptx
- 机器学习算法与实践 课件 第2章 机器学习基本理论.pptx
- 机器学习算法与实践 课件 第3章 K近邻.pptx
- 机器学习算法与实践 课件 第4章 贝叶斯.pptx
- 机器学习算法与实践 课件 第5章 线性模型.pptx
- 机器学习算法与实践 课件 第6章 支持向量机.pptx
- 机器学习算法与实践 课件 第7章 决策树.pptx
- 动物名片(教学设计)湘美版(2024)美术一年级上册 .pdf
- 中华人民共和国成立了(教学设计)岭美版(2024)美术一年级上册.pdf
- 拼音图画(教学设计)湘美版(2024)美术一年级上册(2).pdf
- 中秋节的习俗(教案)冀美版(2024)美术一年级上册.pdf
- 铭记中国符号(教案)岭美版(2024)美术一年级上册.pdf
- 《中国龙》(教案)赣美版(2024)美术一年级上册.pdf
- 第12课 铭记中国符号(教学设计)岭美版(2024)美术一年级上册.pdf
- 上学路上(教案)湘美版(2024)美术一年级上册.pdf
- 《有趣的影子》(教案)岭美版(2024)美术一年级上册.pdf
- 站立的动物(教案)湘美版(2024)美术一年级上册.pdf
文档评论(0)