K-MEANS(K均值聚类算法,C均值算法).pptx

下载文档

14
0
约3.67千字
约 34页
2017-06-28 发布于天津
举报
版权申诉
保障服务

K-MEANS(K均值聚类算法,C均值算法).pptx

1、本文档共34页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2.13.2 The k-Means Algorithm (K-均值聚类算法）;主讲内容;算法简介;算法描述为中心向量c1, c2, …, ck初始化k个种子分组: 将样本分配给距离其最近的中心向量由这些样本构造不相交（ non-overlapping ）的聚类确定中心: 用各个聚类的中心向量作为新的中心重复分组和确定中心的步骤，直至算法收敛;算法 k-means算法输入：簇的数目k和包含n个对象的数据库。输出：k个簇，使平方误差准则最小。算法步骤： 1.为每个聚类确定一个初始聚类中心，这样就有K 个初始聚类中心。 2.将样本集中的样本按照最小距离原则分配到最邻近聚类 3.使用每个聚类中的样本均值作为新的聚类中心。 4.重复步骤2.3直到聚类中心不再变化。 5.结束，得到K个聚类 ;2011-4-14;K-means聚类算法; 划分聚类方法对数据集进行聚类时包括如下三个要点：（1）选定某种距离作为数据样本间的相似性度量上面讲到，k-means聚类算法不适合处理离散型属性，对连续型属性比较适合。因此在计算数据样本之间的距离时，可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量，其中最常用的是欧式距离。下面我给大家具体介绍一下欧式距离。 ; 假设给定的数据集，X中的样本用d个描述属性A1,A2…Ad来表示，并且d个描述属性都是连续型属性。数据样本xi=(xi1,xi2,…xid), xj=(xj1,xj2,…xjd)其中， xi1,xi2,…xid和xj1,xj2,…xjd分别是样本xi和xj对应d个描述属性A1,A2,…Ad的具体取值。样本xi和xj之间的相似度通常用它们之间的距离d(xi,xj)来表示，距离越小，样本xi和xj越相似，差异度越小；距离越大，样本xi和xj越不相似，差异度越大。欧式距离公式如下：;（2）选择评价聚类性能的准则函数 k-means聚类算法使用误差平方和准则函数来评价聚类性能。给定数据集X，其中只包含描述属性，不包含类别属性。假设X包含k个聚类子集X1,X2,…XK；各个聚类子集中的样本数量分别为n1，n2,…,nk;各个聚类子集的均值代表点（也称聚类中心）分别为m1，m2,…,mk。则误差平方和准则函数公式为： ; （3）相似度的计算根据一个簇中对象的平均值来进行。（1）将所有对象随机分配到k个非空的簇中。（2）计算每个簇的平均值，并用该平均值代表相应的簇。（3）根据每个对象与各个簇中心的距离，分配给最近的簇。（4）然后转（2），重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。;O;对于：因为所以将分配给对于：因为所以将分配给更新，得到新簇和计算平方误差准则，单个方差为 ;;k-means算法的性能分析;K-Means算法对于不同的初始值，可能会导致不同结果。解决方法： 1.多设置一些不同的初值，对比最后的运算结果）一直到结果趋于稳定结束，比较耗时和浪费资源 2.很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。这也是 K-means 算法的一个不足。有的算法是通过类的自动合并和分裂，得到较为合理的类型数目 K，例如 ISODATA 算法。 3. 所谓的gapstatistics（ Gap统计模型） ;ISODATA算法;与K-means相比在下列几方面有改进： 1.考虑了类别的合并与分裂，因而有了自我调整类别数的能力。合并主要发生在某一类内样本个数太少的情况，或两类聚类中心之间距离太小的情况。为此设有最小类内样本数限制，以及类间中心距离参数。若出现两类聚类中心距离小于的情况，可考虑将此两类合并。　　分裂则主要发生在某一类别的某分量出现类内方差过大的现象，因而宜分裂成两个类别，以维持合理的类内方差。给出一个对类内分量方差的限制参数，用以决定是否需要将某一类分裂成两类。　　2.由于算法有自我调整的能力，因而需要设置若干个控制用参数，如聚类数期望值K、每次迭代允许合并的最大聚类对数L、及允许迭代次数I等。;基本步骤和思路（1）选择某些初始值。可选不同的参数指标，也可在迭代过程中人为修改，以将N个模式样本按指标分配到各个聚类中心