词汇链文本表示模型计算方法综述.docVIP

词汇链文本表示模型计算方法综述.doc

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
词汇链文本表示模型计算方法综述   摘要:[目的/意义] 词汇链文本表示方法是一种通过词汇链对语篇中的词汇衔接关系进行建模的文本表示方法,该方法能够体现语篇中丰富的语义信息,在自动摘要、文本切分等领域得到广泛应用。[方法/过程] 对词汇链相关研究论文进行收集和整理,对词汇链的构建方式和消歧方法进行了归纳。词汇衔接关系的计算方法包括基于语义关联的计算方法、基于统计信息的计算方法和基于图的计算方法。词汇链构建过程中的语义消歧是很重要的过程,直接影响词汇链的构建结果和效率。[结果/结论] 词汇链文本表示方法结构简单、应用范围广泛。词汇链文本表示模型还存在着一些问题,如使用词典构建存在很多局限性,没有完整考虑上下文的信息等。未来词汇链模型可能会向着融合语义关系方法和统计算法、使用分布式语义加强对上下文分析等方向发展。   关键词:词汇链 词汇衔接 文本表示 自然语言处理   分类号:TP312   引用格式:曲云鹏, 王文玲. 词汇链文本表示模型计算方法综述[J/OL]. 知识管理论坛, 2016, 1(2): 136-144[引用日期]. http:///paperView?id=25.   1 引言   文本表示是智能情报处理的重要环节之一,优秀的文本表示模型能充分且真实地反映文本的内容,提高智能情报处理的效果。词汇链文本表示模型是一种对语篇中的词汇衔接(lexical cohesion)关系进行建模的文本表示模型,能够体现语篇中丰富的语义信息。词汇衔接特性最早由英语语言学家M. A. K. Halliday和R. Hasan定义[1],指的是一段语篇中的词并不是随机组合在一起,而是围绕一个主题或事情而组织在一起。词汇衔接关系是语篇的表层特性,主要通过语篇中文本单元之间的相关性来表现,相关性包括词汇的复现现象和搭配现象。词汇的复现现象指词汇之间的语义关联,例如同义、近义、上下位、整体-部分关联等,词汇的搭配现象指词的共现情况,即在一定窗口距离内或某种语法规则下词汇共同出现的情况[2]。   词汇链指的是语篇中一系列概念相关的词共同组成的词序列,词汇链文本表示模型将文本表示为几个包含有多个词的词汇链,每个词汇链中的词通过词汇衔接关系联系在一起。图1为一段文本中词汇链的分布情况,该文本包含两条词汇链:{sat down, rest, tired, fell asleep}和{beech-tree, leaf, leaves}。   词汇链能构造一个易于理解的上下文环境,有助于确定多义词在文本中的具体含义;词汇链能为文本结构以及文本一致性提供线索,有助于理解文本的大意。词汇链可以被看作是一段语篇的标志性主题词语链,这些词共同表达了同一件事情或意思,确定了词汇链就能确定一段语篇的文本结构等。词汇链文本表示模型使用广泛,不仅可有效呈现文本中的词汇衔接关系,其多种特征也可用于关键词抽取、文本切分等,例如词汇链的长度可以反映相关主题在文本中的覆盖范围,词汇链的密度可以体现语篇中相关主题的延续性,词汇链中词的分布可以体现相关主题的分布情况等。本文主要对词汇链的构建过程和构建方法进行研究和归纳,分析各种词汇链构建方法的特点并进行归类,通过对比总结出各种方法的优缺点,并探讨相关领域未来的研究方向。   2 词汇链的构建过程   在构建词汇链之前,需要先对语篇进行预处理,包括词性处理、停用词处理等,形成候选词列表。然后依照候选词出现的顺序对候选词逐一进行处理,先判断候选词a是否能加入已有词汇链l。判断标准是看候选词和词汇链中的词是否有足够强的词汇衔接关系,若a和现有词汇链的关系满足条件,则加入;若不能加入,则新建一个词汇链并将a作为词汇链的第一个词。该步骤完成后会形成多个词汇链,这时根据具体需要,确定是否执行词汇链的排序、筛选、合并等操作,结果即为最终的词汇链表示模型。词汇链的构建过程如图2所示:   从词汇链的构建流程不难看出,如何寻找并计算词汇衔接关系是词汇链构建过程中的关键步骤。词汇衔接关系分为简单重复、复杂重复、简单释义、复杂释义、语义关联和非词重复6种类型[3],识别的难度从上到下按顺序逐渐增加,见表1。词典中通常会定义一些语义关联,如上下义、同义等,可以体现一些语言单元之间的词汇衔接关系,因此早期的词汇链构建算法通常借助词典中的语义关联来对词汇衔接结构进行建模。   另外,一词多义是自然语言最常见的特征之一,消除候选词的歧义是词汇链构建过程必不可少的步骤,语义消歧的结果体现了自然语言处理的水平。对候选词进行消歧可贯穿词汇链构建的整个过程,消除候选词歧义时机的选择将影响词汇链构建的计算复杂度和难度,同时也会影响词汇链构建的准确率。   3 词汇衔接关系计算方法   3.1 基于语义关联的计算方法   J.

文档评论(0)

kaku + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档