应用多元统计分析聚类分析.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【例5.2】针对例5.1的数据,试用重心法将它们聚类。 (1)样品采用欧氏距离,计算样品间的平方距离阵D2(0),见表5.4所示。 表5.4 当前第30页\共有51页\编于星期三\23点 (2)D2(0)中最小的元素是D212=D256=1,于是将G1和G2合 并成G7,G5和G6合并成G8,并利用(5.18)式计算新类与 其它类的距离得到距离阵D2(1) ,见表5.5: 其中, 其它结果类似可以求得 当前第31页\共有51页\编于星期三\23点 (3)在D2(1)中最小值是D234=4,那么G3与G4合并一个新类G9,其与与其它类的距离D2(2) ,见表5.6: 表5.6 当前第32页\共有51页\编于星期三\23点 (4)在中最小值是=12.5,那么与合并一个新类,其与与 其它类的距离,见表5.7: 表5.7 当前第33页\共有51页\编于星期三\23点 (5)最后将G7和G10合并成G11,这时所有的六个样品聚为一类,其过程终止。 上述重心法聚类的可视化过程见图5.3所示,横坐标的刻度表示并类的距离。 图5.3 重心聚类法的过程 当前第34页\共有51页\编于星期三\23点 当前第35页\共有51页\编于星期三\23点 6. 可变类平均法 由于类平均法中没有反映出Gp和Gq之间的距离Dpq的影响, 因此将类平均法进一步推广,如果将Gp和Gq合并为新类Gr,类Gk与新并类Gr的距离公式为: (5.22) 其中?是可变的且? 1,称这种系统聚类法为可变类平均法。 当前第36页\共有51页\编于星期三\23点 第一节 引言 “物以类聚,人以群分”。对事物进行分类,是人们认识事物的出发点,也是人们认识世界的一种重要方法。因此,分类学已成为人们认识世界的一门基础科学。 在生物、经济、社会、人口等领域的研究中,存在着大量量化分类研究。例如:在生物学中,为了研究生物的演变,生物学家需要根据各种生物不同的特征对生物进行分类。在经济研究中,为了研究不同地区城镇居民生活中的收入和消费情况,往往需要划分不同的类型去研究。在地质学中,为了研究矿物勘探,需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同的矿石类。在人口学研究中,需要构造人口生育分类模式、人口死亡分类状况,以此来研究人口的生育和死亡规律。 当前第1页\共有51页\编于星期三\23点 但历史上这些分类方法多半是人们主要依靠经验作定性分类,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系;特别是对于多因素、多指标的分类问题,定性分类的准确性不好把握。为了克服定性分类存在的不足,人们把数学方法引入分类中,形成了数值分类学。后来随着多元统计分析的发展,从数值分类学中逐渐分离出了聚类分析方法。随着计算机技术的不断发展,利用数学方法研究分类不仅非常必要而且完全可能,因此近年来,聚类分析的理论和应用得到了迅速的发展。 聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。 当前第2页\共有51页\编于星期三\23点 第二节 相似性的量度 一 样品相似性的度量 二 变量相似性的度量 当前第3页\共有51页\编于星期三\23点 一、样品相似性的度量 在聚类之前,要首先分析样品间的相似性。Q型聚类分析,常用距离来测度样品之间的相似程度。每个样品有p个指标(变量)从不同方面描述其性质,形成一个p维的向量。如果把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义,令dij 表示样品Xi与Xj的距离,存在以下的距离公式: 1.明考夫斯基距离 (5.1) 明考夫斯基距离简称明氏距离,按的取值不同又可分成: 当前第4页\共有51页\编于星期三\23点 当前第5页\共有51页\编于星期三\23点 欧氏距离是常用的距离,大家都比较熟悉,但是前面已经提到,在解决多元数据的分析问题时,欧氏距离就显示出了它的不足之处。一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的。为了克服这方面的不足,

文档评论(0)

Zhangqing0991 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档