- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯
第35卷第5期 上海师范大学学报 (自然科学版) V01.35.No.5
2006年 10月 JournalofShanghaiNormalUniversity(NaturalSciences) 2006 .Oct.
基于STC的中文文本聚类算法
王国强 ,郑海清2,牛军钰2
(1.上海市杨浦区业余大学,上海200092;2.复旦大学计算机科学与工程系,上海200433)
摘 要:提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供 目录结
构,辅助用户浏览检索结果.首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后
提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算
法实现的过程 中遇到的关键 问题及解决方案.
关键词:后缀树 ;文本聚类;文本处理
中图分类号:TP391 文献标识码 :A 文章编号:1000-5137(2006)05-0021-06
0 引 言
通常的检索引擎将用户检索的结果表现为一个按照相关度排序的列表,这里的相关度指所检索的
文档与用户问题之间的相似度.这种排序的机制仅仅能够在用户可以将想要查询内容很好地定义出来
的情况下才能发挥 良好的功效,这个条件往往只适用于一些专业人员,在真实的情况下,70%的Web用
户会将其所查询的问题浓缩到一或两个单词中 1J,在这种条件下,检索引擎很难找到用户真正感兴趣
的内容,当用户对其所检索的领域内容不熟悉或他对检索引擎的操作模式是一个新手,或检索引擎处理
的数据量非常大时,这种状况还会进一步地恶化.
既然这种状况是不可避免的,所以检索引擎需要能够提供工具给用户,使用户能够处理检索出来的
大量文档,这些工具应该能够辅助用户快速地浏览和定位 自己想要的东西.
因此需要寻找一种方法能够解决以下几个问题:①使用户能够更加方便地找到想要寻找的内容;②
能够陕速地实现;③能够减少用户浓缩检索时带来的信息分块.例如当需要检索有关 “文本检索引擎”
的内容时,若用户仅仅键人了“文本检索”,能够将与 “引擎”相关的内容进行聚类,以使用户能够快速找
到自己想要的内容.
一 直以来,提高检索引擎的有效性都是文本处理领域的一个论题 J,为了提高检索结果的查询,许
多商用网站也提出了一些有效的方法,常用的方法有:允许用户按照日期或网站聚类,如:Excite,Infos—
eek,HotbotandLycos;允许用户在检索结果中多次再检索,如:Infoseek,yahoo,andLycos;提供与用户检
索问题相似的一些检索问题,如:Infoseek,Altavista,Hotbot,Excite,等等.这些方法能够快速地得出结
果,但对用户浏览的辅助作用并不明显.
本文作者提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供 目录结构,辅
助用户浏览检索结果.文本聚类算法很早就被用来对全部语料进行预处理,从而提高检索引擎的性
能 ].VanRijsbergen在 1979年提出了 “聚类假设”(clusterhypothesis) ,指出与检索结果相似的文档
收稿 日期:2006-05-20
作者简介:王国强(1960一),男,上海市杨浦区业余大学讲师;郑海清 (1982一),男,复旦大学计算机科学与工程系
硕士研究生 ;牛军钰(1973一),女,复旦大学计算机科学与工程系副教授.
维普资讯
22 上海师范大学学报(自然科学版) 2006正
也可能与同样的检索问题相关,所以自动对相似文档进行聚类能够提高检索的查全率.因此我们提出了
一 种文档聚类的方法,通过 自动对相似文档进行聚类帮助用户快速定位及浏览检索结果.
本文作者首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中
文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算法实现的过程中遇到的关键问题
及解决方案.
1 传统的聚类算
您可能关注的文档
- 《优化方案》2013高考政治人教版必修4《第一单元 生活智慧与时代精神》第二课第一框.ppt
- 《有限差分法在微分方程中应用》课程论文.doc
- 『南昌大学食品科学考研』(第七辑)2009-6高分子有机化学试卷(C上).doc
- 【备考2014】(广东专用)2013版高中地理 2.1.2 人口空间变化复习方略配套课件 新人教版.ppt
- 【创新方案】2013高考生物二轮复习 第一部分 专题4 光合作用和细胞呼吸原理配套课件 新人教版.ppt
- 【创新设计】2011届高三数学一轮复习 6-2二元一次不等式组与简单线性规划问题随堂训练 文 苏教版.doc
- 【第一方案】高三数学一轮复习 第七章 不等式、推理与证明第三节 二元一次不等式(组)与简单线性规划问题.doc
- 【高考第一轮复习数学】三角函数、统计概率、数列精选模拟考题.doc
- 【高考讲坛】2015届高三数学(理,山东版)一轮限时检测36 二元一次不等式(组)与简单线性规划问题.doc
- 【高考领航】2015届高新一轮总复习 6.3 二元一次不等式(组)与简单线性规划问题基础盘点系统化AB演练 理.doc
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
文档评论(0)