一种关于语义相似度的文本聚类算法.pdf

一种关于语义相似度的文本聚类算法.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第38 卷第6 期 南 京 航 空 航 天 大 学 学 报 V o l. 38 N o. 6      2006 年 12 月 Jou rnal of N an jing U n iversity of A eronau tics A stronau tics     D ec. 2006 一种基于语义相似度的文本聚类算法 孙 爽 章 勇 (南京航空航天大学信息科学与技术学院, 南京, 210016) 摘要: 文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空 间模型, 文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题, 而且忽 略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS (T ext clustering using ) 算法。 算法将文档表示成概念列表, 有效地解决了数据维数高和聚簇描述难的问题, sem antic sim ilarity TCU SS 并给出如何利用概念列表进行聚簇描述的方法。TCU SS 算法利用两个概念列表中单词间的语义相似度作为文 档间相近程度的度量, 并以图为基础进行聚类分析, 避免有些聚类算法对聚簇形状的限制。实验证明, TCU SS 算 法提高了聚类质量。 关键词: 文本聚类; 语义相似度; 文本表示; 语义相似度的文本聚类算法 中图分类号: T P 311   文献标识码:A    文章编号:(2006) Cluster ing M ethod Ba sed on Seman tic Sim ilar ity S un S huang , Z hang Y ong (Co llege of Info rm ation Science and T echno logy, N anjing U niversity of A eronautics A stronautics, N anjing , 210016, Ch ina) : Abstract Comm on docum en t clu stering algo rithm s rely on the so called vecto r space m odel u sing the . , item frequency as the featu re How ever these m ethods dono t really address the special p rob lem s of tex t clu stering: h igh dim en sionality of the data and understandab ility of the clu ster descrip tion. M o reover, w o rds m ay be sem an tically related —a crucial info rm ation fo r clu stering does no t con sidered. A new doc um en t clu stering m ethod based on

文档评论(0)

xuefei111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档