十章节聚类分析.pptVIP

下载本文档

1
0
约3.04千字
约 18页
2019-01-04 发布于福建
举报
版权申诉

十章节聚类分析.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

十章节聚类分析

第十五章聚类分析上海第二医科大学生物统计教研室聚类分析的意义第一节聚类分析的基本概念聚类分析(Cluster analysis)又称集群分析，它是研究“物以类聚”的一种数理统计方法。聚类分析可将一些观察对象依据某些特征加以归类。例如临床上为修复耳缺损，可先以正常耳朵的耳长、耳宽、耳外展距等指标为依据，对耳朵进行聚类分析，把正常耳朵划分成几类，然后找出各类之标准化耳朵，以供临床修复各种耳缺损病员时参考。聚类分析和判别分析的比较判别分析时总体中各类别的划分是十分清楚的。判别分析需要知道一批已知分类的训练样品，在此基础上建立判别函数，所以它是有师可循的方法。聚类分析时总体中各类别的划分是不清楚的，甚至到底应分成几类也不知道，用于聚类分析的原始数据中没有类别变量，所以是无师可循的统计分析方法。聚类分析的方法系统聚类法：用于对小样本的样品间聚类及对指标聚类。逐步聚类法或称快速聚类法：用于对大样本的样品间聚类。有序样品聚类法：用于对有排列次序的样本的样品间聚类，要求必须是次序相邻的样品才能聚在一类。聚类分析的方法模糊聚类法：建立在模糊数学基础上的对样品间聚类的方法，适用于小样本。分割聚类法：适用于对指标聚类聚类统计量定义：在聚类分析中反映样品或变量间关系亲疏程度的统计量称为聚类统计量，常用的聚类统计量分为距离和相似系数两种。距离：用于对样品的聚类。常用欧氏距离，在求距离前，需把指标进行标准化。相似系数：常用于对变量的聚类。一般采用相关系数。第二节系统聚类法（systematic cluster method）基本思想：首先定义样品间距离及类与类之间的距离；开始时每个样品各看成一类，将距离最近的两类合并; 重新计算新类与其它类的距离，再将距离最近的两类合并; 再计算新类与其它类的距离，……，这样一步步的进行下去，每一步减少一类，直至所有的样品都合并成一类为止。类与类间距离定义方法类与类之间距离定义方法：最短距离法(single linkage)：类与类之间距离定义为两类间样品距离的最小值。最长距离法(complete linkage) ：类与类之间距离定义为两类间样品距离的最大值。类与类间距离定义方法重心法(centroid method) ：类与类之间距离定义为两类的重心之间的距离。类平均法(average linkage) ：类与类之间距离定义为两类间样品距离的平均值。类与类间距离定义方法中间距离法(median method) 可变类平均法(flexible-beta method) 、 Mcquitty的相似分析法(Mcquitty's similarity analysis) Ward离差平方和法(Ward's minimum-variance method) 、最大似然估计法(EML)、密度估计(density linkage) 两阶段密度估计法(two-stage density linkage) 快速聚类法原理第三节快速聚类法它首先选择一些初始凝聚点, 把这些凝聚点作为今后聚类的核心; 接着把每个样品根据欧氏距离归入到与该样品最近的凝聚点所代表的类，以构成暂时的类; 再用这些暂时的类的重心代替初始凝聚点作为新的凝聚点，再一次把每个样品归入到与该样品最近的凝聚点所代表的类, 构成新的暂时的类，……，这样一直进行下去,直至分成的类再没有什么变化为止。指标分割聚类法原理第四节对指标的分割聚类法分割聚类的过程如下：首先给出一个初始分类，然后重复以下步骤： (1)挑选一个欲分割的类，这个被分割的类的类内差异最大。 (2)把选中的类分割成两个类。再根据某准测把此类中所有变量分别归入这两个类。这种分割过程一直进行下去，直至达到某种分割停止准则为止。指标分割聚类法原理分割停止准则可为： (1) 已达到了用户指明的所期望分类的最大个数。可用MAXC=变量数。 (2)每类类成份所能解释的方差所占比例都大于某指定值。 (3)每类第二特征根均小于某指定值。第(2)和(3)意味