- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
10.1 简略介绍如下聚类方法:划分方法、层次方法。每种给出两个例
子。
(1)划分方法:给定一个有 N个对象的集合,划分方法构造数据的 K个
分区,每一个分区表示一个簇,且 K≤N。而且这 K个分组满足下列条
件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅
属于一个分组 (注意:这个要求在某些模糊聚类算法中可以放宽 ) ;对于
给定的 K ,算法首先给出一个初始的分组方法,以后通过反复迭代的方
法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好
的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越
好。
使用这个基本思想的算法有: K-MEANS 算法、 K-MEDOIDS 算法、
CLARANS 算法。
(2)层次方法:这种方法对给定的数据集进行层次似的分解,直到某
种条件满足为止。具体又可分为 “自底向上 ”和 “自顶向下 ”两种方案。例
如在 “自底向上 ”方案中,初始时每一个数据记录都组成一个单独的组,
在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的
记录组成一个分组或者某个条件满足为止。
代表算法有: BIRCH 算法、 CURE 算法、 CHAMELEON 算法
等。
10.2 假设数据挖掘的任务是将如下的 8个点(用 (x, y)代表位置)聚类为 3
个簇。
A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9)
距离函数是欧氏距离。假设初始我们选择 A1 、B1和C1分别为每个簇
的中心,用 k-均值算法给出:
(a)在第一轮执行后的 3个簇中心。
(b)最后的 3个簇。
(a)第一轮后 , 三个新的簇为 (1){A1}
(2){B1,A3,B2,B3,C2}
(3){C1,A2}
簇中心分别为 (1) (2, 10), (2) (6, 6), (3) (1.5, 3.5).
(b)最后 3个簇为 (1) {A1,C2,B1}, (2) {A3,B2,B3}, (3) {C1,A2}.
10.6 k-均值和 k- 中心点算法都可以进行有效的聚类。
(a)概述 k-均值和 k- 中心点相比较的优缺点。
(b)概述这两种方法与层次聚类方法 (如AGNES) 相比有何优缺点。
(a)当存在噪声和离群点时 , k- 中心点算法比 k-均值具有更强的鲁棒
性。因为在中心点不像均值那样容易受离群值或其他极端值影响。但
是 , 它的计算开销更大。
(b)k- 均值和 k- 中心点都是划分方法。这种划分方法分优点是,可以撤
销之前的聚类步骤 (通过迭代迁移 ), 不像层次方法 , 一旦执行了拆分或合
并, 就不能做出调整。层次方法的这种弱点可能使产生的聚类的质量受
到影响。
划分方法找球形簇的效果很好。一般来说 ,对于中小型数据库 , 结果
聚类的质量很好。他们需要提前知道簇的数量可以被认为是一个弱点。
层次聚类方法可以自动确定集群的数量。然而 ,他们难以扩展 ,因为每个
分裂或合并的决定可能要求大量对象或集群的检查和评价。然而 , 层次
方法可以与其他聚类方法集成 , 改进聚类 , 如 BIRCH, ROCK, 和
Chameleon.
10.14 聚类已经被
文档评论(0)