一种关于语义相似度的文本聚类算法.pdf

下载文档

3
0
约2.54万字
约 5页
2017-07-18 发布于湖北
举报
版权申诉
保障服务

一种关于语义相似度的文本聚类算法.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第38 卷第6 期南　京　航　空　航　天　大　学　学　报 V o l. 38 N o. 6 　　　　 2006 年 12 月 Jou rnal of N an jing U n iversity of A eronau tics A stronau tics　　　　　D ec. 2006 一种基于语义相似度的文本聚类算法孙　爽　章　勇 (南京航空航天大学信息科学与技术学院, 南京, 210016) 摘要: 文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型, 文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题, 而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS (T ext clustering using ) 算法。算法将文档表示成概念列表, 有效地解决了数据维数高和聚簇描述难的问题, sem antic sim ilarity TCU SS 并给出如何利用概念列表进行聚簇描述的方法。TCU SS 算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量, 并以图为基础进行聚类分析, 避免有些聚类算法对聚簇形状的限制。实验证明, TCU SS 算法提高了聚类质量。关键词: 文本聚类; 语义相似度; 文本表示; 语义相似度的文本聚类算法中图分类号: T P 311　　　文献标识码:A 　　　文章编号:(2006) Cluster ing M ethod Ba sed on Seman tic Sim ilar ity S un S huang , Z hang Y ong (Co llege of Info rm ation Science and T echno logy, N anjing U niversity of A eronautics A stronautics, N anjing , 210016, Ch ina) : Abstract Comm on docum en t clu stering algo rithm s rely on the so called vecto r space m odel u sing the . , item frequency as the featu re How ever these m ethods dono t really address the special p rob lem s of tex t clu stering: h igh dim en sionality of the data and understandab ility of the clu ster descrip tion. M o reover, w o rds m ay be sem an tically related —a crucial info rm ation fo r clu stering does no t con sidered. A new doc um en t clu stering m ethod based on