基于语义类汉语句法的分析的研究 网.pptxVIP

基于语义类汉语句法的分析的研究 网.pptx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于语义类的汉语句法分析研究;句法分析的困难;基于语义类的汉语句法分析;,; 模型总是先产生词性,然后以词性为基础再产生语义类因此,只有词性相同的词语被划分在同一个语义类中才有意义根据语料库中的数据,我们为每一个词性都建立一棵七层的语义分类树,树的根节点为词性,叶节点为词汇,中间的五层为语义类代码例如:词性NR(专有名词)的语义分类树的一部分如图所示:; 为每一个词性都划分好这样的语义分类树之后,就可以应用文献所提出的方法,把词语的聚类问题简化为语义分类树的剪枝问题语义分类树的每一种剪枝方式都对应着一种词汇聚类结果例如,在图中,靠近根节点的剪枝方式把所有的词汇分成了如下的3类:

第一类(A):{克林顿尼克松毛泽东邓小平}

第二类(D):{中国美国意大利安徽省福建省中科院鞍钢}

第三类(B):{长城白宫}

类似地,在图中,靠近叶节点的剪枝方式把所有的词语分成了如下

7类:

第一类(Afloc12):{克林顿尼克松}

第二类(Afloe13):{毛泽东邓小平}

第三类(oioZAo3):{中国}

第四类(Di02C):{美国意大利安徽省福建省}

第五类(omolB):{中科院}

第六类(omO3C):{鞍钢}

第七类(BnolC):{长城白宫}; 我们可以用两个极端方式对语义分类树进行剪枝:第一种剪枝方式是只保留根节点(词性信息),其它节点全部剪掉,这相当于回到了PCFG

模型。第二种剪枝方式是不剪枝,保留所有叶子节点(词汇信息),这相当于是词汇化模型。我们知道PCFG模型过于简单,消歧能力差;而词汇化模型使用词汇信息却引起数据稀疏。因此,上述两种方式都是不可取的,比较合理的剪枝应该是介于两个极端方式之间的。本文采用最小描述长度(MniimumDescriptinoLnegth,MDL)原则,自动地为句法分析模型在两个极端方式之间寻找一个平衡点。;对于一棵剪枝后的语义分类树,其描述长度为:; 其中,sc为w所属的语义类,f(sc)是其出现的次数,lscl伪语义类sc中所包含的词语数目。上式的基本思想是把某个语义类sc的概率平均分配给该语义类所包含的词,也就是说语义类sc所包含的词的各种统计量将被融合在一起并在每个词之间平均分配,正是借助这种泛化手段我们才可以从较小的语料库当中获得比较智能化的参数估计。

为了搜索到能够使L(M)、L(DlM)两项之和最小的剪枝方式,理论上要穷举所有可能的情况。在实际操作时,我们可以采用动态规划的方法递归地搜索最优的剪枝方式,算法如下:; 我们看到该算法在对节点N剪枝之前,首先要对其所有子节点调用该算法进行剪枝。我们在实际操作时,只需要把每个词性的语义分类树的根节点作为参数传递给该算法即可。;实验与分析; 我们设计了如下的3组实验:)(1)基于词汇的句法分析,作为其他方法的比较基准。(2)基于固定层次语义类的句法分析。如前所述,每个词汇都有五层语义类代码,因此分别进行了5个实验来验证语义信息的作用,即所有词汇都分别采用第一层、第二层、第三层、第四层、第五层语义类代码。(3)基于最优层次语义类的句法分析,即应用MDL原则为每一个词汇自动确定采用哪一层语义类代码。; 基于第三层、第四层、第五层语义类代码的句法分析的性能都超过了基于词汇模型的方法,这在一定程度上说明了语义类在汉语句法分析模型中的重要作用。但是,基于第一层、第二层语义类的方法的性能不如基于词汇的方法好。导致这一结果的原因是语义类的数目过小,例如,第一层语义类只有12种(即把近万个词语聚成12类),而这12个语义类不足以描述众多词语之间在句法语义功能上的细微区别,因此使句法分析模型的判别能力下降。

在第3组实验中,语义信息的作用得到了更加充分的发挥。与第二组实验相比,用MDL原则剪枝的方式取得的性能提升更为显著。这是因为第二组的每个实验中所有的词汇都是采用相同层次的语义类,这种不考虑训练数据的实际分布情况而仅仅根据语义词典中的先验知识进行词语聚类的处理方式过于简单,显然不会有最理想的效果;而MDL原则可以在语义词典的基础上,根据词语的统计规律自动地为每一个词汇确定一个层次最为合适的语义类,使得句法分析模型在数据拟合能力和参数数目之间寻找到一个平衡点,从而取得更好的泛化能力。

文档评论(0)

188****0089 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档