第2讲统计自然语言处理的数学基础市公开课一等奖省赛课获奖PPT课件.pptxVIP

第2讲统计自然语言处理的数学基础市公开课一等奖省赛课获奖PPT课件.pptx

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

统计自然语言处理

基础理论;主要内容;模型;模型由体系结构和参数两部分组成

举例:住宅楼

体系结构

?多层板楼

?高层板楼

?高层塔楼

参数

?层数:

?户型:三室一厅,两室一厅,……

?层高:

?供热方式:地热?暖气片?;1.一些基本概念;?事件

一个试验一些可能结果集合,是样本空间一个子集

举例:连掷两次硬币

?A:最少一次面朝上A={HT,TH,HH},

?B:第二次面朝下B={HT,TT}

;概率(probability);举例;联合概率;条件概率(conditionalprobability);概率乘法原理;独立和条件独立;全概率公式(1);全概率公式(2);随机变量(RandomVariable);期望(expectation);方差(variance);协方差与相关系数;联合分布和边缘分布;2.贝叶斯法则(Bayes’theorem);2.贝叶斯法则(2);贝叶斯决议理论;基于最小错误率贝叶斯决议规则;例:

假设某一个特殊句法结构极少出现,平均大约每100,000个句子中才可能出现一次。我们开发了一个程序来判断某个句子中是否存在这种特殊句法结构。假如句子中确实含有该特殊句法结构时,程序判断结果为“存在”概率为0.95。假如句子中实际上不存在该句法结构时,程序错误地判断为“存在”概率为0.005。那么,这个程序测得句子含有该特殊句法结构结论是正确概率有多大?

;解:假设G表示事件“句子确实存在该特殊句法结构”,T表示事件“程序判断结论是存在该特殊句法结构”。那么,我们有:

;3.几个惯用分布;二项式分布;在自然语言处理中,我们经常以句子为处理单位。普通地,我们假设一个语句独立于它前面其它语句,句子概率分布近似地认为符合二项式分布。

;(2)正态分布;标准正态分布;4.概率密度预计方法;(1)最大似然预计;你就会想,只发一枪便打中,猎人命中概率普通大于这位同学命中概率.看来这一枪是猎人射中.;假设:

概率密度函数形式已知

预计参数θ是确定而未知

独立地按概率密度p(x|θ)抽取样本集

K={x1,x2,…,xN},用K预计未知参数θ

;最大似然预计-似然函数;第36页;最大似然预计示意图;计算方法;举例:;(2)贝叶斯预计-最大后验概率;贝叶斯预计-最小风险;贝叶斯预计-最小风险-续;信息论基础;信息度量;信息论;概念1:自信息量;概念2:信息熵;熵表示信源X每发一个符号(不论发什么符号)所提供平均信息量。

熵也能够被视为描述一个随机变量不确定性数量。一个随机变量熵越大,它不确定性越大。那么,正确预计其值可能性就越小。越不确定随机变量越需要大信息量用以确定其值。;一本50万字书有多少信息量?;概念3:联合熵(jointentropy);第51页;概念4:条件熵(conditionalentropy);概念5:互信息(mutualinformation);依据定义,展开H(X)和H(X|Y)轻易得到:

点互信息:

;?比如计算两个词搭配

I(伟大,祖国)=log2p(伟大,祖国)/(p(伟大)p(祖国))

I(,祖国)=log2p(,祖国)/(p()p(祖国))

?I(x,y)0:x和y关联强度大

?I(x,y)=0:x和y无关

?I(x,y)0:x和y含有互补分布;互信息、条件熵与联合熵关系;概念6:相对熵(relativeentropy);相对熵示意图;概念7:交叉熵(crossentropy);对于语言L=(Xi)~p(x)与其模型q交叉熵定义为:

为随机变量(x1,x2,…,xn),表示长度为n自然语言序列,其中每个随机变量xi(i=1,2,…,n)代表自然语言序列上一个语言单位词。xi可在其所代表词集X中取值。自然语言序列可被视为离散平稳有记忆信源。

;我们能够假设这种语言是“理想”,即n趋于无穷大时,其全部“单词”概率和为1。那么能够假定语言L是稳态遍历(stationaryergodic)随机过程,信源是各态遍历,依据Shannon-McMillan-Brenmain定理,交叉熵可由:

求出,xi∈W。上式可由统计语料库近似求出。假设语料库容量为R,交叉熵近似值定义为:

;对于n-gram,其概率为

能够计算句子概率:;第63页;对于N-gram语言模型,N值越高,其交叉熵越小,迷惑度也越小,语言处理效果也越好。

由此,我们能够依据模型q和一个含有大量数据L样原来计算交叉熵。在设计模型q时,我们目标是使交叉熵最小,从而使模型最靠近真

文档评论(0)

134****4691 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档