- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
K-Means算法中K值的确定
聚类算法在数据处理中有广泛的应用,K-Means算法是一种较为常用且有效
的聚类算法。但它有一个缺点,在进行算法之前需要预先给出聚类的个数。因此,
如何在K-Means算法中确定合适的K值成为该算法的一大问题。本文讨论了几种
常用的确定K值的方法,并详细讨论了一种利用评价函数判断K值好坏的方法,
之后在若干个数据集中进行了测试,取得了较好的效果。
1.1聚类算法的演变
正所谓,物以类聚,人以群分。将可识别的物体进行分类一直以来都是符合
人类的基本认知规律的。早在公元前三世纪的古希腊,分类学就已经作为一门科
学盛行于当下,而作为其代表人物的亚里士多德不仅对五百余种不同的动植物进
行了分类,还对五十余种动物进行了解剖,并首先指出鲸鱼是胎生的。我国著名
医药学家李时珍外出至我国的各大名山大川考察,尝遍百草,将千余种植物分为
五部,三十类。俄罗斯著名化学家门捷列夫更是首创了元素周期表,将化学元素
依其质子数分门别类,并以此对一些尚未被发现的元素作出预言。
可以看到的是,不论在人类的何种时期,将事物分门别类都是一个恒久的问
题。在工业时代之前,通过人工的方法进行分类尚且是没有问题的。然而,在信
息革命后的今天,我们若还是一味的依赖传统方法,就将难逃被时代淘汰的命运。
因为信息时代所需要分门别类的,是海量的数据。而面对这样规模的数据,人工
的方法将会有过大的消耗,再加上人类对于数据的认知是十分抽象的,缺乏直观
的认识,因此其效果大打折扣。
面对这些问题,聚类分析应运而生。聚类分析,又名群分析。它以相似性为
基础,在没有鲜艳信息的前提下,将看似无序的研究样本分类成多个类簇。其原
则是组内的相似性较高,而组间的相似性较低。它的起源便是上文所提到的分类
学。在早期的分类学中,人们主要依靠经验和专业知识进行分类。纵观人类科技
发展史,随着科技进程的不断推进,当原始的分类方法不足以满足我们对分类的
需求,人们便将数学工具应用到分类学中,逐步形成了数值分类学、聚类分析等
学科。聚类分析并不依赖于人类的直觉,而是通过算法的应用,将数据进行基于
某种规则的客观分类。在数据规模增大到一定程度的时候,这种方法相较于传统
方法就具有了不可比拟的优势。
1.2聚类算法的应用
1
在生活中,聚类分析被广泛应用,譬如在推荐系统中,聚类分析就有着举足
轻重的作用。当该系统作用时,我们需要识别出不同的客户群,即了解被推荐人
可能还会想要购买什么商品。就网上书店而言,一个购买《经济学原理》的用户,
还有可能会购买《货币战争》。而这样的用户可能被归为“经济学爱好者”这一
客户群。那么,如果客户能够得到了正确的分类,则经系统推荐出的书目被售出
的概率也将增大。因此,一个准确的聚类能够有效地提高商品的销量,具有很大
的商业价值。
在面对文本处理的问题中,我们可以运用聚类假设的原则,即相似度大的文
档被分为同类文档,相似度小的文档被分为不同类文档。考虑到文本聚类不需要
人工标注与训练过程,因此其具有比较高的自动化处理能力与灵活性。它在多文
档自动文摘系统Newsblaster中作为其自然语言处理的预处理步骤。此外,在搜
索引擎中,如果对搜索引擎的返回结果聚类,则可以缩小检索内容的范围,让用
户更为精确地找到所需要的信息。
而对于模式识别而言,聚类分析也显得颇为重要。在基于聚类的模式识别中,
不论是图像识别,或是语音识别,首先要将图像转化为数据,亦即提取图像或是
语音的特征值。在获取了特征值以后,图像或是语音便映射到了某个数据点。我
们需要根据特征值对其进行聚类。从而在对某个陌生图像进行识别时,只需判断
其特征值的分类便可完成识别。
此外,聚类也可以应用于防垃圾邮件系统中。电子邮件是我们用于信息通讯
的一个常用媒介。但是这个媒介时常会被利用作发送诸如广告,病毒,诈骗信息
等垃圾邮件,打扰人们的正常使用。因此,在电子邮箱中,我们需要一个防垃圾
邮件系统,用于鉴别“垃圾邮件”与“非垃圾邮件”。而对一个新的邮件进行分
类,便可更好的判断该邮件是否属于不良邮件,以改善电子邮件用户的用户体验。
聚类算法不仅应用广泛,其种类也是繁多的。依据其聚类原理可以分为基于
划分的方法,基于层次的方法,基于密度的方法等等。而K-Means聚类算法就
是一种十分经典的基于划分的方法。它的算法简单,聚类速度较快,但是有一个
您可能关注的文档
最近下载
- 22S702:室外排水设施设计与施工——钢筋混凝土化粪池.pdf VIP
- 人教版小学数学六年级上册重点题型专项练习(必刷)word版.docx
- 广东省中山市2022-2023学年九年级上学期第一阶段十校联考英语试卷(含答案).docx VIP
- 423编号七年级数学《代数式》习题(含答案).pdf VIP
- 译林版三年级上册英语Unit 4《This is my friend》全单元教学课件(新教材).pptx
- 中学班会 课堂教学《寝室管理的要求》课件(共18张PPT).pptx VIP
- 物理学与人工智能.ppt
- 手机塑胶件来料检验标准手册.pdf VIP
- 公安基础知识1000题.docx
- 翻修屋顶合同5篇.docx VIP
文档评论(0)