基于树核函数的人物关系抽取研究市公开课一等奖百校联赛特等奖课件.pptxVIP

基于树核函数的人物关系抽取研究市公开课一等奖百校联赛特等奖课件.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于树核函数人物关系抽取研究

彭成钱龙华周国栋汇报人:彭成苏州大学自然语言处理试验室/第1页

提要引言相关工作研究动机我们方法试验结果与分析下一步工作第2页

引言人物关系抽取 人物关系抽取是实体关系抽取一个主要分支,意在抽取人名实体之间各种社会关系。比如,关系实例“朱镕基会见克雷蒂安”中,存在着社会交互关系(CONTACT)。研究意义 WEB给我们提供了一个巨大信息库,其中隐藏着大量用户感兴趣实体及其相互关系。 人物关系抽取技术对社会网络构建、问答系统等均含有主要意义。第3页

相关工作基于共现方法:Kautz等(1997):ReferralWeb.Mika():Flink.基于机器学习方法:Matsuo等():基于决议树C4.5分类器。姚从磊等():基于模拟退火算法。Jing等():基于命名实体识别、关系检测、事件检测。Elson等():基于角色名称识别和对话检测。Agarwal等():基于社会交互事件检测。第4页

研究动机存在问题:当前针对人物关系抽取研究普通只包括特定领域或是依赖于大规模网页共现关系。通常情况下,人物关系类型比较单一。现有条件:伴随基于核函数广泛采取,实体关系抽取技术得到快速发展并日臻成熟。能否利用树核函数从新闻领域文本中抽取丰富人物关系?怎样提升其抽取性能?第5页

人物关系抽取方法人物关系定义静态人物关系:ACE语料原有定义PER-SOC关系(Business,Family,Lasting-Personal)。动态人物关系:重新定义ACECONTACT事件(Meet,Phone-Write)为交互关系。基于树核函数人物关系抽取方法结构化信息结构《同义词词林》语义信息融合重采样技术应用第6页

结构化信息结构删除实体并列结构(RMV_ENTITY_CC) 当连接两个实体节点路径中出现并列结构时,能够删除其中一个并列部分。删除NP并列结构(RMV_NP_CC_NP) 当连接两个NP节点路径中出现并列结构时,保留最短路径所经过那个并列部分。恢复右侧动词(EXT_RIGHT_VERB) 扩展第二个实体到最低公共节点之间出现动词短语结构。第7页

结构化信息结构(续)第8页

语义信息融合语义信息对实体间语义关系抽取含有主要指导作用,我们在句法树中加入了两个实体词汇在《同义词词林》语义编码信息。第9页

重采样技术应用第10页

试验试验设置人物关系语料库包含关系正例880个,关系负例18599个。人物关系类型主要为PER-SOC类和CONTACT类。本文试验采取五倍交叉验证策略。选择SVM作为分类器,采取开源工具为支持卷积树核函数SVMLightTK工具包。评定标准采取惯用准确率(P),召回率(R)和F1指标(F1)。本文采取近似随机技术进行显著性测试,并分别使用双下划线、单下划线和无下划线表示p≤0.01、0.01<p≤0.05和p>0.05,即差异非常显著、显著和不显著。第11页

试验结果——裁剪特征影响裁剪规则PER-SOCContactTotalPRF1PRF1PRF1SPT(baseline)80.738.952.375.810.518.478.831.845.3+RMV_ENTITY_CC80.939.552.979.611.519.979.932.546.1(80.9)(39.5)(52.9)(79.6)(11.5)(19.9)(79.9)(32.5)(46.1)+RMV_NP_CC_NP82.439.853.581.718.229.681.634.348.3(81.5)(38.4)(52.0)(83.3)(21.0)(33.5)(81.3)(34.0)(47.8)+EXT_RIGHT_VERB81.839.653.381.221.533.981.035.048.8(80.9)(38.3)(52.8)(62.0)(11.0)(18.6)(75.9)(32.6)(45.5)结论:1.三种裁剪策略对总体性能提升显著。2.Contact类型F1值显著低于PER-SOC类型,同时,其性能提升幅度大于PER-SOC类型。第12页

试验结果——语义信息影响词林类别PER-SOCContactTotalPRF1PRF1PRF1SPT-OPT(baseline)81.839.653.381.221.533.981.035.048.8SPT-OPT+CL_B81.938.151.881.823.536.281.234.348.1SPT-OPT+CL_M78.741.654.379.422.534.978.236.749.9SPT-OPT+CL_S81.441.054.481.122.935.680.53

文档评论(0)

185****6315 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档