一种基于语义的文本相似度量方法.docxVIP

一种基于语义的文本相似度量方法.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于语义的文本相似度量方法 1 文本相似度量方法 文本聚集指的是将文本集合自动分成不同的类别。在同一类别中,文本非常相似,但在不同类别中的文本并不相似。在文本聚合过程中,有一些关键问题:如何衡量两个文本之间的相似性。文本集群的数量是如何确定的?如何评估集群是否自然反映了文本本身的属性?在这些问题中,如何建立文本之间的相似性是文本收集的核心问题。 文本的相似度量是一个在语言学、心理学和信息理论等领域内被广泛研究的一个重要话题.传统的文本相似度量方法大都将文本看作一组词的集合体,分析每个词在文本中出现的次数以及在整个文本集合中出现的次数,进而利用这些词频信息将文本建模为一个向量,并利用向量间的余弦相似度、Jaccard相似度等方法计算文本之间的相似度.基于语义的文本相似度量方法则通过同义词、冗余和蕴涵等语义关系来考察文本之间的相似性. 文本相似度量方法在许多领域有着广泛的应用:在信息检索领域,文本相似度量方法被认为是改进检索效果最好的方法之一;在图像检索领域,利用图像周围的文本可以获得更好的检索精度;此外,文本相似度量方法还广泛地应用于文本分类、文本摘要的自动生成、文本的重复检测等领域. 基于词频向量的相似度方法忽略了文本中词项的含义,也忽略了文本中的语法、组织结构等信息.此外,对于大多数文本数据库而言,词项的数目和文本数目通常都很大,而采用词频向量模型,必须将文本表示为词项数目与文本数目大致相当的矩阵,矩阵中的行列向量都有着非常高的维度并且是极度稀疏的,最终导致了非常低效的计算.基于词项语义来考察文本相似度量的方法在文本表示模型上多数沿用了词频向量模型,没有针对文本表示的高维模型进行降维处理,也缺乏衡量文档之间相似程度的定义,导致基于词项语义信息的文本相似度量方法局限于一些特定的应用领域. 本文针对上述方法存在的缺陷,提出了一种既能有效降低文本表示模型的维度,又能结合词项语义信息进行相似度量计算的方法.给定两个文本,通过本文提出的算法能够高效、自动地计算出两个文本在语义层次上的相似度,并且能够在较为广泛的应用领域内使用. 2 文本相似度分析 TF-IDF方法是文本相似度量的方法中最为典型的一种.该方法基于下面的经验观察,将文本表示为文中出现的n个加权词项组成的向量: (1) 词频(Term Frequency). 某个词项在一个文本中出现的次数越多,它和文本的主题越相关;要注意在特定的语言环境下都有许多特定的词不具备这种特性而应将其排除,如中文的“的” “地”、英文的“a” “an”等. (2) 逆文本频率(Inverse Document Frequency). 某个词项在文本集合的多篇文本中出现次数越多,该词项的区分能力越差.例如:在一个包含1000篇文本的集合中,如果某个词项A在100篇文本中都出现,而另一个词项B只在10篇文本中出现,则词项B比A具有更好的区分能力. 利用上述概念计算每一个词项wi的TF-IDF值,通常采用如下公式: TF-IDF(wi)=tf(wi)×idf(wi)=tfj(wi)×log(N/df(wi)) (1) 式(1)中的tfj(wi)表示当前词项wi在文本j中出现的频率,N表示文本集合中所有文本的总数,df(wi)表示文本集合中有多少篇文本出现了当前词项wi.通过对文本集合中的每一个词项都进行上述分析,得到每一篇文本中每一个词项的TF-IDF值.然后再利用这些TF-IDF值为每一篇文本建立一个向量模型,通过计算向量间的余弦相似度或者Jaccard系数来确定文本之间的相似性. 随着互联网的发展,如何从海量的文本数据中获取更为准确的信息对这种忽略词项语义的方法提出了挑战.我们必须能够更加精确地分析、捕捉和刻画文本的含义而不仅仅是词项出现的频率.例如一篇关于银行(bank)的文章和一篇关于河岸(bank)的文章,由于银行和河岸两者的词项都是bank,基于词频的相似度量方法就很可能会将它们看成是很相似的文章.而一篇关于苹果和一篇关于橘子的文章则可能因为两者的词项不同(apple和orange)而认为是不相似的两篇文章. 基于上述观察,人们开始研究词和词之间的相似度.词与词之间的相似度量需要将所有的词组织起来构成一个词义的网络,通过考察该网络中词与词之间的边、节点等信息来建立词与词之间的相似度.最常用的是普林斯顿大学研究开发的WordNet.文献考察了词义网中密度、节点深度、链接类型等因素提出了一种基于词义网边的词与词之间的相似度量方法.文献则给出了既考虑节点信息内容又结合节点之间边的方法.上述文献主要对名词或动词之间的相似度应用词典所构建的词与词之间的层次关系进行研究,对于形容词、副词而言,组织一个类似于名词的层次关系是非常困难的.文献利用WordNet研究了局部相关性信息以此来确定文

文档评论(0)

hzyacc + 关注
实名认证
文档贡献者

专业的文档设计与制作

1亿VIP精品文档

相关文档