- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
统计自然语言处理
基础理论;主要内容;模型;模型由体系结构和参数两部分组成
举例:住宅楼
体系结构
?多层板楼
?高层板楼
?高层塔楼
参数
?层数:
?户型:三室一厅,两室一厅,……
?层高:
?供热方式:地热?暖气片?;1.一些基本概念;?事件
一个试验一些可能结果集合,是样本空间一个子集
举例:连掷两次硬币
?A:最少一次面朝上A={HT,TH,HH},
?B:第二次面朝下B={HT,TT}
;概率(probability);举例;联合概率;条件概率(conditionalprobability);概率乘法原理;独立和条件独立;全概率公式(1);全概率公式(2);随机变量(RandomVariable);期望(expectation);方差(variance);协方差与相关系数;联合分布和边缘分布;2.贝叶斯法则(Bayes’theorem);2.贝叶斯法则(2);贝叶斯决议理论;基于最小错误率贝叶斯决议规则;例:
假设某一个特殊句法结构极少出现,平均大约每100,000个句子中才可能出现一次。我们开发了一个程序来判断某个句子中是否存在这种特殊句法结构。假如句子中确实含有该特殊句法结构时,程序判断结果为“存在”概率为0.95。假如句子中实际上不存在该句法结构时,程序错误地判断为“存在”概率为0.005。那么,这个程序测得句子含有该特殊句法结构结论是正确概率有多大?
;解:假设G表示事件“句子确实存在该特殊句法结构”,T表示事件“程序判断结论是存在该特殊句法结构”。那么,我们有:
;3.几个惯用分布;二项式分布;在自然语言处理中,我们经常以句子为处理单位。普通地,我们假设一个语句独立于它前面其它语句,句子概率分布近似地认为符合二项式分布。
;(2)正态分布;标准正态分布;4.概率密度预计方法;(1)最大似然预计;你就会想,只发一枪便打中,猎人命中概率普通大于这位同学命中概率.看来这一枪是猎人射中.;假设:
概率密度函数形式已知
预计参数θ是确定而未知
独立地按概率密度p(x|θ)抽取样本集
K={x1,x2,…,xN},用K预计未知参数θ
;最大似然预计-似然函数;第36页;最大似然预计示意图;计算方法;举例:;(2)贝叶斯预计-最大后验概率;贝叶斯预计-最小风险;贝叶斯预计-最小风险-续;信息论基础;信息度量;信息论;概念1:自信息量;概念2:信息熵;熵表示信源X每发一个符号(不论发什么符号)所提供平均信息量。
熵也能够被视为描述一个随机变量不确定性数量。一个随机变量熵越大,它不确定性越大。那么,正确预计其值可能性就越小。越不确定随机变量越需要大信息量用以确定其值。;一本50万字书有多少信息量?;概念3:联合熵(jointentropy);第51页;概念4:条件熵(conditionalentropy);概念5:互信息(mutualinformation);依据定义,展开H(X)和H(X|Y)轻易得到:
点互信息:
;?比如计算两个词搭配
I(伟大,祖国)=log2p(伟大,祖国)/(p(伟大)p(祖国))
I(,祖国)=log2p(,祖国)/(p()p(祖国))
?I(x,y)0:x和y关联强度大
?I(x,y)=0:x和y无关
?I(x,y)0:x和y含有互补分布;互信息、条件熵与联合熵关系;概念6:相对熵(relativeentropy);相对熵示意图;概念7:交叉熵(crossentropy);对于语言L=(Xi)~p(x)与其模型q交叉熵定义为:
为随机变量(x1,x2,…,xn),表示长度为n自然语言序列,其中每个随机变量xi(i=1,2,…,n)代表自然语言序列上一个语言单位词。xi可在其所代表词集X中取值。自然语言序列可被视为离散平稳有记忆信源。
;我们能够假设这种语言是“理想”,即n趋于无穷大时,其全部“单词”概率和为1。那么能够假定语言L是稳态遍历(stationaryergodic)随机过程,信源是各态遍历,依据Shannon-McMillan-Brenmain定理,交叉熵可由:
求出,xi∈W。上式可由统计语料库近似求出。假设语料库容量为R,交叉熵近似值定义为:
;对于n-gram,其概率为
能够计算句子概率:;第63页;对于N-gram语言模型,N值越高,其交叉熵越小,迷惑度也越小,语言处理效果也越好。
由此,我们能够依据模型q和一个含有大量数据L样原来计算交叉熵。在设计模型q时,我们目标是使交叉熵最小,从而使模型最靠近真
您可能关注的文档
- 第15课印刷术指南针和火药课件.ppt
- 雷克萨斯lx570lx460原厂中文维修手册tshwl.pdf
- 小六数学共享课程讲分数乘法学生版.pdf
- excel数据透视实战秘技期公开课让表飞一会儿学员感悟-10.pdf
- 专论加巴喷丁gabapentin capsules3297.pdf
- 247matlab三维图绘制课件代码实时脚本生成code3.pdf
- 章函数求值示例页来自fortran f05.pdf
- 飞兆半导体cd md系列芯片dm74as640.pdf
- 技术实验室ine dc workbook 2013-试验手册3 ucsb.pdf
- 刘一秒典语录老师赢利智慧课程句.pdf
- 分析let s单元56ago2卷纸zheng unit56.pdf
- 塑胶材料其它分类原料pa9t 12.pdf
- md16x16数字媒体切换器设备.pdf
- 者参考项目发起人学科类型单位序列承包商修订页代码顺序典型.pdf
- 届世界天然气大会阿姆斯特丹2006add10288.pdf
- 期测试记录表每周weekly g1g6 journeys tests level 6 lesson26.pdf
- modernize-whitepaper现代化您应用程序白皮书.pdf
- anybackup产品典型案例分析.pdf
- 约克金融工程课程tfeslide32.pdf
- 广州市妇女儿童医疗中心历份教学药历01tjy.pdf
最近下载
- 2024年湖北省中考历史试题卷(含答案及解析).docx
- 爱护我们的五官幼儿主题班会PPT课件.pptx VIP
- 2020人教版二年级数学下册易错题型及答案.pdf VIP
- 2024届高考专题复习:小说叙述视角课件(共24张PPT) (1).pptx VIP
- 2024届高考专题复习:小说叙述视角.pptx VIP
- 《道德与法治》六年级下册全册知识点汇总.docx
- 测测达人版平台服务规则考试题库答案APP测测基础认证题.docx
- 江苏省苏州常熟市七年级数学下学期期末考试试题.docx VIP
- 建筑地基处理技术规范.pptx
- T_CACM 1270-2019 中医内科临床诊疗指南 脓毒症.docx
文档评论(0)