基于K均值聚类的定位算法分析.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于K均值聚类的定位算法分析

文章编号 1004-6410(2012)03-0045-04 基于 K 均值聚类的定位算法分析 李 炜 (广西工学院 计算机学院,广西 柳州 545006) 摘 要:在描述了聚类算法的基本思想和概念的基础上,介绍了一种常见的聚类算法—K 均值和 K 中心点聚类算法, 通过处理认知无线电网络中主用户定位在海量数据中应用 K 均值聚类算法,对该算法进行分析,仿真结果表明:与传 统的主用户定位算法相比,使用 K 均值聚类算法能够有效地提高定位精度和降低定位算法的复杂度. 关键词:聚类分析;K 均值;认知无线电;定位算法 中图分类号:TP391 文献标志码:A 引言 数据挖掘(Data mining)是通过数理方法在数据库中进行知识发现的一个方法.数据挖掘一般是指运用 特定的算法对海量的数据资料进行分析和处理,从而搜索出数据资料中隐藏的、有用的数据信息来为人们 提供有价值的知识. 数据挖掘技术能够从数据库和信息库中的数据资料中发现数据间的隐含关系并提取 出潜在的、有效的模式或者知识,通过统计分析处理、机器学习和模式识别等诸多方法来实现上述目标. 聚类分析是数据挖掘在实际应用中的主要方法之一[1].一般情况下,在聚类算法中,将数据或者对象的 集合划分成不同的簇(或者成为聚类集合),每一个簇(聚类)中的数据或者对象拥有较高的相似性,而不同 的簇(聚类)中数据或者对象具有较大的差异性.聚类的目标就是依照某种特定相似度量对数据或者对象 进行划分.聚类算法可以应用到很多学科领域,如计算机科学、统计学、商务、生物学、经济学等领域.通过聚 类算法,人们可以在不同的领域中发现数据分布密集和稀疏的区域,发现数据或者对象间的相互关系,从 而对该领域的数据样本进行有效的划分. 聚类分析计算方法主要有以下几种:划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于 密度的方法(Density-based Methods).划分法就是对给定的 N 个单元或者纪录的数据集,划分成 K 个分组, 每一个分组就代表一个聚类,其中 K<N.且每一个分组至少包含一个单元或者纪录,每一个数据单元或者 纪录属于且仅属于一个分组,常见的算法如:K 均值算法,K-MEDOIDS 算法、CLARANS 算法等;层次法是 对给定的数据集进行层次似的分解直到满足某种条件为止,具体又可分为“自底向上”和“自顶向下”两种 方案,常见算法有:BIRCH 算法、CURE 算法、CHAMELEON 算法等;基于密度的方法区别于其他方法之处 在于,它不是基于各种各样距离,而是基于密度.这样算法的优势在于能够克服基于距离的算法只能发现 “类圆形”的聚类缺点.该方法的基本思想就是只要一个区域中的点的密度大过某个阀值,就把它加到与之 相近的聚类中去,其代表算法有 DBSCAN 算法、OPTICS 算法等[2-4]. 在众多的聚类方法中,均值方法是一种最经典的也是应用最广泛的聚类方法[5-7],该方法以各类样本 的中心为代表不断迭代,只适用于数值属性数据的聚类,对超球形和凸状数据有很好的聚类效果. 0 收稿日期:2012-08-28 基金项目:广西自然科目基金(2011gxhsfa018162)资助. 作者简介:李 炜,硕士,助理实验师,研究方向:信号与信息处理,数据挖掘, HYPERLINK mailto:liwei-happyman@ E-mail:liwei- HYPERLINK mailto:happyman@ happyman@. 1 K 均值聚类算法 1.1 K 均值聚类算法基本思想 K 均值聚类算法是,假设含有 N 个数据(对象)的集合 X~(x1,x2,…,xn),将这个数据集合划分为 K 个聚 K 类中心集合 C~(c1,c2,… ,ck)的问题.假设第 k 类的样本数目为 Nk,则 N=ΣNk,每类 Ck 的均值为(m1,m2, k = 1 Nk …,mk),则 mk= 1 Σxi,k=1,2,…,K. K 均值聚类算法是基于误差平方和准则的,即 K 均值聚类算法的最小 N i = 1 目标函数为 K Nk J= ΣΣ xi-mk 2 (1) k = 1 i = 1 K 均值聚类算法首先在数据集合中随机选取 K 个数据点作为 K 个聚类的初始类中心,数据集合中每 个数据点根据计算其与各个聚类中心的距离,并将其被划分到距离最近的聚类中心所在的类中,从而获得 了 K 个聚类的初始分布状态集合.当每个数据点划分到相应的聚类中心后,对分配完的每一个聚类集合计 算新的类中心,然后继续对集合内的数据点进行数据分配,进行若干次迭代分配,若聚类中心不再发生变 化,则说明集合中的数据对象全部分配到自己所在的类中,那么聚类准则

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档