第2讲统计自然语言处理的数学基础市公开课一等奖省赛课获奖PPT课件.pptxVIP

下载本文档

0
0
约2.25千字
约 70页
2024-07-05 发布于湖北
举报
版权申诉

第2讲统计自然语言处理的数学基础市公开课一等奖省赛课获奖PPT课件.pptx

1、本文档共70页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计自然语言处理

基础理论;主要内容;模型;模型由体系结构和参数两部分组成

举例：住宅楼

体系结构

?多层板楼

?高层板楼

?高层塔楼

参数

?层数：

?户型：三室一厅，两室一厅，……

?层高：

?供热方式：地热？暖气片？;1.一些基本概念;?事件

一个试验一些可能结果集合，是样本空间一个子集

举例：连掷两次硬币

?A：最少一次面朝上A={HT,TH,HH},

?B：第二次面朝下B={HT,TT}

;概率(probability);举例;联合概率;条件概率(conditionalprobability);概率乘法原理;独立和条件独立;全概率公式（1）;全概率公式（2）;随机变量(RandomVariable);期望(expectation);方差(variance);协方差与相关系数;联合分布和边缘分布;2.贝叶斯法则(Bayes’theorem);2.贝叶斯法则(2);贝叶斯决议理论;基于最小错误率贝叶斯决议规则;例：

假设某一个特殊句法结构极少出现，平均大约每100,000个句子中才可能出现一次。我们开发了一个程序来判断某个句子中是否存在这种特殊句法结构。假如句子中确实含有该特殊句法结构时，程序判断结果为“存在”概率为0.95。假如句子中实际上不存在该句法结构时，程序错误地判断为“存在”概率为0.005。那么，这个程序测得句子含有该特殊句法结构结论是正确概率有多大？

;解：假设G表示事件“句子确实存在该特殊句法结构”，T表示事件“程序判断结论是存在该特殊句法结构”。那么，我们有：

;3.几个惯用分布;二项式分布;在自然语言处理中，我们经常以句子为处理单位。普通地，我们假设一个语句独立于它前面其它语句，句子概率分布近似地认为符合二项式分布。

;（2）正态分布;标准正态分布;4.概率密度预计方法;（1）最大似然预计;你就会想，只发一枪便打中,猎人命中概率普通大于这位同学命中概率.看来这一枪是猎人射中.;假设：

概率密度函数形式已知

预计参数θ是确定而未知

独立地按概率密度p(x|θ)抽取样本集

K={x1,x2,…,xN}，用K预计未知参数θ

;最大似然预计-似然函数;第36页;最大似然预计示意图;计算方法;举例：;（2）贝叶斯预计-最大后验概率;贝叶斯预计-最小风险;贝叶斯预计-最小风险-续;信息论基础;信息度量;信息论;概念1：自信息量;概念2：信息熵;熵表示信源X每发一个符号（不论发什么符号）所提供平均信息量。

熵也能够被视为描述一个随机变量不确定性数量。一个随机变量熵越大，它不确定性越大。那么，正确预计其值可能性就越小。越不确定随机变量越需要大信息量用以确定其值。;一本50万字书有多少信息量？;概念3：联合熵(jointentropy);第51页;概念4：条件熵(conditionalentropy);概念5：互信息(mutualinformation);依据定义，展开H(X)和H(X|Y)轻易得到：

点互信息：

;?比如计算两个词搭配

I(伟大,祖国)=log2p(伟大,祖国)/(p(伟大)p(祖国))

I(,祖国)=log2p(,祖国)/(p()p(祖国))

?I(x,y)0：x和y关联强度大

?I(x,y)=0：x和y无关

?I(x,y)0：x和y含有互补分布;互信息、条件熵与联合熵关系;概念6：相对熵(relativeentropy）;相对熵示意图;概念7：交叉熵(crossentropy);对于语言L=(Xi)~p(x)与其模型q交叉熵定义为:

为随机变量(x1,x2,…,xn),表示长度为n自然语言序列，其中每个随机变量xi(i=1，2，…，n)代表自然语言序列上一个语言单位词。xi可在其所代表词集X中取值。自然语言序列可被视为离散平稳有记忆信源。

;我们能够假设这种语言是“理想”，即n趋于无穷大时，其全部“单词”概率和为1。那么能够假定语言L是稳态遍历(stationaryergodic)随机过程，信源是各态遍历，依据Shannon-McMillan-Brenmain定理，交叉熵可由：

求出，xi∈W。上式可由统计语料库近似求出。假设语料库容量为R，交叉熵近似值定义为：

;对于n-gram，其概率为

能够计算句子概率:;第63页;对于N-gram语言模型，N值越高，其交叉熵越小，迷惑度也越小，语言处理效果也越好。

由此，我们能够依据模型q和一个含有大量数据L样原来计算交叉熵。在设计模型q时，我们目标是使交叉熵最小，从而使模型最靠近真

您可能关注的文档

文档评论（0）

134****4691 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第2讲统计自然语言处理的数学基础市公开课一等奖省赛课获奖PPT课件.pptxVIP