超图Hypergraph理论及实际应用.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
超图(Hypergraph)理论与应用 刘未鹏 动机(Motivation) 什么是共指消解(Coreference Resolution) 共指消解的各种方法 图分割(Graph Partitioning)方法 简单图分割方法的潜在缺陷 引入超图(Hypergraph)的意义 超图(Hypergraph) 超图的定义 超图的分割 超图真比简单图优越吗? 如何将超图运用到共指消解中 什么是共指消解 [李明i ]怕[高妈妈j ]一人呆在家里寂寞,[他i ]便将[他自己i]家里的电视搬了过来给[她j]。 共指消解的方法 规则方法 利用句法层面的知识,进行启发式消解。 统计方法 基于训练语料库,统计出概率分布,然后进行预测。 机器学习 决策树、朴素贝叶斯、规则学习等等。 图方法 以节点表示名词短语,以边表示名词短语间的共指关联度。 图方法 节点表示名词短语 边表示短语与短语之间的某种关联(这种关联必须要对“共指”起到贡献,如人称、性别、单复数等属性) 边的权值用来表示这种关联对共指起到的贡献的大小 简单图 超图 为什么引入超图(一个例子) 为什么引入超图(一个例子) 假设有三篇文章,v1,v2,v3。它们的作者分别是:v1:A,B v2:B,C v3:C,D 如果v1:A,B v2:A,C v3:A,D 简单图的分割 目标:使分割出来的两个子图之间的关联最小 简单图分割的数学表达 分割子图间关联最小 = 跨分割边界的所有边的权值之和最小 邻接矩阵(Adjacency Matrix) A(i, j) = 顶点i和顶点j之间的所有边的权值之和 Min Cut(G+, G-),根据二次型表达式 等价于:MaxY YTAY,其中Yi ∈ {+1, -1}; 简单图分割的问题 问题:导致退化的分割 Normalized-Cut 仅仅做到跨边界的权值和最小还不够,因为可能存在一些孤立点,它们跟外界的联系本身就极小,于是很可能被独立分割出来。 Normalized-Cut 解决思想:一个cut是“好的”当且仅当对任意一个子图来说,从子图中的节点出发跨越分割边界的边的权值和相比于从子图节点出发的所有边的权值和的比例越小越好。通俗来说就是:任一分割出来的子图跟外界的联系主要来自该子图内部。 Normalized-Cut 拉普拉斯矩阵(Laplacian Matrix) 谱(Spectrum)方法 NP-Hard 谱方法逼近解 minz(ZTLZ/ZTZ) 其中 Zi ∈ {r+ , r-}; r+ = √|{i:zi0}|/|{i:zi0}| r- = √|{i:zi0}|/|{i:zi0}| 不变式:ZTZ = n; ZT1 = 0; 含义:L是拉普拉斯矩阵 L = B – A 超图理论的目标 将简单图的表达泛化为超图表达,将简单图分割算法推广到超图分割之上,并证明超图分割和简单图分割的内在标准(criteria)是一致的 超图的表示 关键是超边如何表示:用一个点集来表示。 令V是一个顶点集合V={v1, v2, v3, v4,v5,v6,v7}; 则每一条超边都是V的一个子集 E = {e1,e2,e3,e4} = {{v1,v2,v3},{v2,v3}, {v3,v5,v6},{v4}} 超图的矩阵表达 超图的邻接矩阵 超图的分割(cut) 理解超图cut的含义 超图的Normalized-Cut 超图的Normailzed-Cut 随机游走(Random Walk) 超图分割的随机游走解释 意义:证明超图分割的确是简单图分割的一个妥善的推广,这对超图分割算法的有效性至关重要。 图分割的随机游走解释:一个最优分割须使得随机游走落在同一个子图中的概率最大,同时随机游走跨越分割边界的几率最小。 目标:证明超图分割也满足同样的随机游走性质。 什么是随机游走(Random Walk) Google Pagerank算法 Google Pagerank算法 基本模型:用一个向量I来代表所有页面的重要性,I的第i个分量Ii就是第i个页面的重要性;另,假设一个页面有lj个向其它页面的链接,那么每个被指向的页面都得到该页面的1/lj的重要性;同时假设一个页面的重要性完全来自指向它的页面的贡献 数学表达: 其中Pj表示第j个页面。lj表示第j个页面上的链接数,Pj∈Bi表示第j个页面指向Pi。 Google PageRank算法 Google Pagerank算法 如何计算I=HI中的I?(I是H的一个特征向量,对应特征值为1) 迭代法:Ik+1 = HIk Google

文档评论(0)

duoduoyun + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档