第四章 统计模式识别中的.ppt

  1. 1、本文档共99页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 统计模式识别中的

第四章 统计模式识别中的 聚类方法;4.1 相似性准则(相似性度量) 4.2 聚类准则函数 4.3 两种简单的聚类算法 4.4 系统聚类 4.5 分解聚类 4.6 动态聚类 4.7 最小张树聚类 ;如下图所示,表示具有相同的试验平均值和样本协方差矩阵的三个数据集 ;4.1 相似性准则(续) ;4.1 相似性准则(续) ;在聚类分析中,常用的聚类要素的数据处理方法有如下几种: ;d、还要注意模式样本测量值的选取,应该是有 效反映类别属性特征(各类属性的代表应均衡) ;(2)马氏(Mahalanobis)距离 定义:马氏距离的平方 其中, 为均值向量, 为协方差矩阵 (3)明氏(Minkowsky)距离 定义:明氏距离: , 它是若干距离函数的通式: 时,等于欧氏距离; 时,称为“街坊”(city block)距离 ;4.1 相似性准则(续) ;样本相似性度量是聚类分析的基础,针对具体问题,选择适当的相似性度量是保证聚类质量的重要问题。但有了相似性度量还不够,还必须有适当的聚类准则函数。聚类准则函数对聚类质量也有重大影响。 相似性度量 → 集合与集合的相似性。 相似性准则 → 分类效果好坏的评价准则。;4.2 聚类准则函数 ;;4.2 聚类准则函数(续) ;;3.类间距离和准则;4.散射矩阵 ①类内散射矩阵 其中 为某一个类型的类内散射矩阵: 表示 类型的第 个样本, 。 ;可以定义如下的4个聚类准则: ;4.3 两种简单的聚类算法;4.3 两种简单的聚类算法(续);4.4 系统聚类; 2、最长距离 :两类中相距最远的两个样本间的距离。 3、中间距离:最短距离和最长距离都有片面性,因此有时用中间距离。设ω1类和ω23类间的最短距离为d12,最长距离为d13,ω 23类的长度为d23,则中间距离为: 上式推广为一般情况:;4、重心距离:均值间的距离 5、类平均距离:两类中各个元素两两之间的距离平方相加后取平均值 ;(2)系统聚类的算法; 例:如下图所示 1、设全部样本分为6类, 2、作距离矩阵D(0);;3、求最小元素: 4、把ω1,ω3合并ω7=(1,3) ω4,ω6合并ω8=(4,6) 5、作距离矩阵D(1);6、若合并的类数没有达到要求,转3。否则停止?? 3、求最小元素: 4、ω8,ω5,ω2合并, ω9=(2,5,4,6) ;点集;最短距离;最远距离;4.5 分解聚类;分解聚类框图:;对分算法:略 例:已知21个样本,每个样本取二个特征,原始资料矩阵如下表: ;;∴目标函数; 2、分别计算当 划入; 然后再把 划入 时对应的E值,找出一个最大的E值。 把 划为 的E值最大。 ∴ ; 次数 E值 1 56.6 2 79.16 3 90.90 4 102.61 5 120.11 6 137.15 7 154.10 8 176.15 9 195.26 10

文档评论(0)

djdjix + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档