第章聚类分析及MATLAB实现.ppt

  1. 1、本文档共66页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第章聚类分析及MATLAB实现

③ 设在第m步得到分类 以上递推计算过程中, ,不一定是样品,也未必是Gi(m)重心,当m逐渐增大,分类趋于稳定,此时xi(m)? xi(m+1), Gi(m) ? Gi(m+1) ,算法即可结束.实际计算若从某步开始,连续两次分类一样,则分类完成. % 二次聚点与分类 m1=mean(G1); m2=G2; m3=mean(G3); m4=mean(G4); Q=dist([m1;m2;m3;m4],a); F1=sort(Q); [F1,U1]=sort(Q) e1=find(U1(1,:)==1), e2=find(U1(1,:)==2), e3=find(U1(1,:)==3), e4=find(U1(1,:)==4) 聚类结果如下: 巴西、印度、南非 类的个数的确定: 由适当的阈值确定; 根据数据点的散布直观地确定类的个数; 根据统计量确定分类个数; 根据谱系图确定分类个数的准则: 各类重心间的距离必须很大; 类中保包含的元素不要太多; 类的个数必须符合实际应用; 如果采用几种不同的聚类方法处理,则在各种聚类图中应该发现相同的类。 4.2.2 类间距离的递推公式 设有两类Gp,Gq合并成新的一类Gr,包含了nr=np+nq个样品,如何计算Gr与其他类别Gk之间的距离,这就需要建立类间距离的递推公式。 (1)最短距离 (2)最长距离 (3)类平均距离 (4)重心距离 证明: 将 代入(1) (1) 将上式中加上再减去 与 ,合并同类项得 上式第二行合并同类项,得 (5)离差平方和距离 1. 选择样本间距离的定义及类间距离的定义; 2. 计算n个样本两两之间的距离,得到距离矩阵 3. 构造个类,每类只含有一个样本; 4. 合并符合类间距离定义要求的两类为一个新类; 5. 计算新类与当前各类的距离。若类的个数为1,则转到步骤6,否则回到步骤4; 6.画出聚类图; 7.决定类的个数和类。 4.2.3 谱系聚类法的步骤 谱系聚类的步骤如下: 系统聚类分析的方法 系统聚类法的聚类原则决定于样品间的距离以及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法。 以下用dij表示样品X(i)和X(j)之间的距离,当样品间的亲疏关系采用相似系数Cij时,令 ; 以下用D(p,q)表示类Gp和Gq之间的距离。 (1)n个样品开始作为n个类,计算两两之间的距离或相似系数,得到实对称矩阵 (2)从D0的非主对角线上找最小(距离)或最大元素(相似系数),设该元素是Dpq,则将Gp,Gq合并成一个新类Gr=(Gp,Gq),在D0中去掉Gp,Gq所在的两行、两列,并加上新类与其余各类之间的距离(或相似系数),得到n-1阶矩阵D1。 (3)从D1出发重复步骤(2)的做法得到D2,再由D2出发重复上述步骤,直到所有样品聚为一个大类为止。 (4)在合并过程中要记下合并样品的编号及两类合并时的水平,并绘制聚类谱系图。 例4. 从例1算得的样品间的欧氏距离矩阵出发,用下列方法进行谱系聚类。 (1)最短距离,(2)最长距离 解:我们用1,2,3,4,5分别表示辽宁、浙江、河南、甘肃和青海,将距离矩阵记为D0 (1)最短距离法:将各省看成一类,即Gi={i} i=1,…,5,从D0可以看出各类中距离最短的是d43=2.20,因此将G3,G4在2.20水平上合成一个新类G6={3,4},计算G6和G1,G2,G5之间的最短距离 ,得 将计算结果作为第一列,从D0中去掉第3、4行与3、4列,剩余元素作为其余各列得到D1 从D1可以看出G6与G5的距离最小,因此在2.21的水平上将G6与G5合成一类G7,即G7={3,4,5}计算G7与G1,G2之间的最短距离,得 将计算结果作为第一列,从D1中划掉{3,4}与{5}所在的行与列,剩余元素作为其他列得 从D2可以看出G1,G2最接近,在11.67的水平上合并成一类G8,至此只剩下G7,G8两类,他们之间的距离为:12.8,故在此水平上将合成一类,包含了全部的五个省份。 最后,我们作出谱系聚类图: 图1 最短距离聚类图 最长距离聚类方法,同学练习 例 为了研究辽宁等5省1991年城镇居民生活消费情况的分布规律,根据调查资料做类型分类,用最短距离做类间分类。数据如下: x1 x2 x3 x4 x5 x6 x7 x8 辽宁1 7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29 浙江2 7.68 50.37 11

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档