大数据治理(高级) 课件 西财 实训项目4:鸢尾花数据预处理.pptx

大数据治理(高级) 课件 西财 实训项目4:鸢尾花数据预处理.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1

实训4鸢尾花数据预处理2

知识点数据归约概念维度规约数量规约数据压缩3

实训目标了解数据归约的概念与分类;理解维度规约概念及方法;理解数量规约概念及方法;了解数据压缩概念及方法;4

知识点数据归约概念维度规约数量规约数据压缩5

数据归约概念数据归约(datareduction)是指通过维度的减少或者数据量的减少,来达到降低数据规模的目的。数据规约维度规约数量规约数据压缩6

知识点数据归约概念维度规约数量规约数据压缩7

维度规约维度规约(dimensionlity)即:减少所考虑的随机变量或属性的个数。维度规约把原始数据变换或投影到较小的空间,其中不相关、弱相关或冗余的属性或维被检测和删除。FA(FactorAnalysis)SVD(SingularValueDecomposition)PCA(PrincipalComponentAnalysis)8

维度规约维度降维9数据过载维度灾难

因子分析(FA)FA(FactorAnalysis)是指研究从变量群中提取共性因子的统计技术。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。??参考代码:PPT配套案例-实训4-4.110

奇异值分解(SVD)??SVD(SingularValueDecomposition)作为一种常见的矩阵分解方法广泛用于数据的降维与去噪。其基本原理为通过矩阵变换将一个比较复杂的矩阵用更小的3个矩阵的相乘来表示。参考代码:PPT配套案例-实训4-4.211

奇异值分解(SVD)?12

主成分分析(PCA)??参考代码:PPT配套案例-实训4-1.313

主成分分析(PCA)??参考代码:PPT配套案例-实训4-4.314

知识点数据归约概念维度规约数量规约数据压缩15

数量规约数量归约(numerosityreduction)用替代的、较小的数据表示形式替换原始数据,包括参数的或非参数的方法。参数方法有回归和对数-线性模型,非参数方法有直方图、聚类、抽样和数据立方体聚集。16

知识点数据归约概念维度规约数量规约数据压缩17

数量规约数据压缩(datacompression)使用变换方法得到原始数据的归约或“压缩”表示。如果原始数据可以从压缩后的数据重构,而不损失信息,则该数据归约称为无损的。如果只能近似重构原数据,则称之为有损的。维归约和数量归约也可以视为某种形式的数据压缩。18

感谢聆听19

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档