自然语言处理教学课件10.ppt

下载文档

38
0
约1.23万字
约 79页
2022-03-01 发布于广东
举报
版权申诉
保障服务

自然语言处理教学课件10.ppt

1、本文档共79页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* 10.4 实体链接 10.4.1 基本概念 10.4.2 基于上下文的实体链接 10.4.3 集体实体链接 10.4.4 基于深度学习的实体链接 * 10.4.4 基于深度学习的实体链接深度学习的时代到来深度学习特征提取能力出众，适合学习文本匹配任务借助 GPU 等分布式运算平台算力不断提升，深度学习能够快速学习样本基本思想：利用深度学习模型分别对实体指称的上下文以及候选实体的描述文本进行编码 * 10.4.4 基于深度学习的实体链接 * 第10章信息抽取 10.1 命名实体识别 10.2 实体关系抽取 10.3 事件抽取 10.4 实体链接 10.5 开放域信息抽取 * 10.5 开放域信息抽取 10.5.1 开放域实体类别标签获取 10.5.2 开放域关系抽取以及事件抽取 * 10.5.1 开放域实体类别标签获取类别候选抽取: 从多个来源抽取开放域命名实体类别的候选, 包括搜索结果中的高频名词或名词短语、在线百科中的类别标签以及命名实体本身的核心词。类别词排序: 对这些开放域命名实体类别候选进行排序, 采用启发式的方法自动构建训练语料, 并且提出一组有效的特征, 训练排序模型来解决此问题。基于多信息源的开放域命名实体类别挖掘方法框架图 * 10.5.1 开放域实体类别标签获取将命名实体作为查询词, 输入到搜索引擎中检索网页，从搜索返回的结果中统计词频, 也就是统计和给定命名实体共现的词语的频率，选择最频率最高的N个名词或名词短语作为命名实体类别的候选。实验显示当 N=10时，可以为 86.91 %的实体找到至少一个正确的类别。基于搜索结果抽取开放域命名实体类别候选 * 10.5.1 开放域实体类别标签获取从在线百科中抽取有价值的命名实体类别候选, 例如可以选择百度百科和互动百科作为来源。但是百科中的类别标记并不都是准确的。比如：“小丑鱼”的开放分类标签“自然”和“节肢动物”就是不正确的类别。“自然”指示了“小丑鱼”这个页面所述的范畴是自然领域; 而“节肢动物”则完全是用户的编辑错误。因此, 即使是在百科中出现了的命名实体，也不能直接把它的开放分类标记直接拿来使用，仍然需要进一步的判别。实体本身的核心词有时也是一种重要的线索, 比如“极乐鸟” 的核心词“鸟” “微软公司” 的核心词“公司”都能指示实体的类型。汉语实体的核心词通常位于实体的结尾, 因此对实体进行分词后, 选取最末尾的词为核心词。通过测试发现约有41.35 %的实体, 其核心词就是正确的类别。 * 10.5.1 开放域实体类别标签获取当为每一个实体获取了开放域命名实体类别的候选后，可通过排序模型对这些候选进行排序, 将最可能正确的类别排在前面。考虑到人工标注费时费力, 以一种启发式的策略来提取特征和自动收集训练语料, 提取的特征包括: * 10.5.1 开放域实体类别标签获取要训练统计机器学习模型的参数, 训练语料是必须的。采用一种启发式的方法, 利用在线百科来获取语料。首先从百科中抽取实体名, 然后利用上文中的方法抽取类别候选，接着利用以下两个原则获取训练语料: 原则1: 类别的来源越多越可能是正确的; 原则2: 类别的先验概率越高，越可能是正确的。根据这两个原则对候选进行排序, 我们选取排在第一位的为正例，最后一位的为反例，如果有并列，则都选作训练语料。按照这个方法, 可以获得了大量的训练实例。然后使用前文提到的特征训练统计机器学习模型，包括SVM和逻辑回归模型。 * 10.5.1 开放域实体类别标签获取 ①获取候选类别词 ②获取候选类别词 * 10.5 开放域信息抽取 10.5.1 开放域实体类别标签获取 10.5.2 开放域关系抽取以及事件抽取 * 10.5.2 开放域关系抽取以及事件抽取面向开放域的开放域关系抽取(Open Relation Extraction，OpenRE) 任务，致力于从开放文本抽取实体间的任意关系事实。开放域关系抽取涉及三方面的“开放”：首先是抽取关系种类的开放，希望抽取所有已知和未知的关系；其次是测试语料的开放，不同领域文本各有不同特点，需要探索跨域鲁棒的算法；第三是训练语料的开放，充分利用现有各类标注数据。 * 10.5.2 开放域关系抽取以及事件抽取基于序列标注（Sequence Labeling）的开放域关系抽取通过启发式的规则无监督地构建序列标注抽取模型。由三个关键模块组成：关系抽取器：使用序列标注技术找出文本中出现的名词和动词, 基于找到的实体和两实体间的动词形成可能存在的关系三元组；三元组判别器：根据句法结构中的启发式规则找出其中可信度较高的结果；冗余评估器：统计不同三元组在语料中出现的次数，计算关系三