第6章_贝叶斯学习与em算法.ppt

  1. 1、本文档共127页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * 先是乘法规则,如果A1、A2独立则进一步简化。 * 隐马尔科夫模型)是一种用参数表示的用于描述随机过程统 计特性的概率模型, 是一个双重随机过程, 由两个部分组成:马尔可夫链和一般随机过。 其 中马尔可夫链用来描述状态的转移,用转移概率描述。一般随机过程用来描述状态与观察序列间的关系,用观察值概率描述。 最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于隐性变量的概率模型中,参数的最大似然估计。 寻找,依赖于不可观察的 * 期 望 ?g: 估计 期 望 当yi ? l 为0 期 望 期 望 期 望 1 最大化 给定初始估计值 ?g, 需要找到合适参数 ?, 使得期望最大化 实际上, 就是反复迭代. 混合高斯模型 高斯模型为 d 维,第 j个模型 可表示为: 该GMM有 M 个模型: 目 标 混合模型 其中, 最大化: 目 标 混合模型 其中 最大化: 仅与 ?l 相关. 仅与 ?l 相关. 求 ?l 由于有 ?l的约束,为典型求条件极值问题,故引入拉格朗日乘子 ?, 并构成以下等式. 求?l 1 N 1 求 ?l 求 ?l Only need to maximize this term 考虑 GMM unrelated 求 ?l Only need to maximize this term 因此, 需最大化: unrelated 为什么? 主要是基于矩阵代数知识. 求 ?l 因此, 需最大化: 小结 针对高斯混合模型 GMM的EM算法 给定初始估计值 ?g, 寻找新的参数 ?new 如下: 不收敛 估计k个高斯分布的均值 考虑D是一个实例集合,它由k个不同正态分布的混合所得分布生成 每个实例使用一个两步骤的过程形成: 首先,随机选择k个正态分布中的一个 其次,随机变量xi按照此选择的分布生成 考虑一个简单情形: 单个正态分布的选择基于均匀的概率进行,且k个正态分布有相同的方差 学习任务:输出一个假设h=?1...?k,描述k个分布中每个分布的均值,找到极大似然假设,即使得p(D|h)最大化的假设 估计k个高斯分布的均值(2) 当给定从一个正态分布中抽取的数据实例x1,...,xm时,很容易计算该分布的均值的极大似然假设,它是前面介绍的最小误差平方假设的一个特例,表示如下 然而,现在的问题涉及k个不同正态分布,而且不知道哪个实例是哪个分布产生的。这是一个涉及隐藏变量的典型例子; 对于图6-4的例子,每个实例的完整描述是三元组xi,zi1,zi2,其中xi是第i个实例的观测值,zi1和zi2表示哪个正态分布被用来产生xi,是隐藏变量 (6.27,28) 图6-4 由两个具有相等方差的正态分布混合生成的例子 估计k个高斯分布的均值(3) 如果zi1和zi2的值可知,就可用式子6.27来解决,否则使用EM算法 EM算法根据当前假设?1...?k,不断地再估计隐藏变量zij的期望值,然后用这些隐藏变量的期望值重新计算极大似然假设 以图6-4为例,先将假设初始化为h=?1, ?2 计算每个隐藏变量zij的期望值E[zij],假定当前假设h=?1, ?2成立 计算一个新的极大似然假设h’=?’1, ?’2,假定每个隐藏变量zij所取值是第一步得到的期望值E[zij]。将假设替换为h’=?’1, ?’2,然后循环 两个步骤的计算式 E[zij]正是实例xi由第j个正态分布生成的概率 第二步,使用第一步得到的E[zij]来导出一新的极大似然假设 两个步骤的计算式(2) 第二步中的表达式类似于式6.28,只是变成了加权样本均值 EM算法的要点:当前的假设用于估计未知变量,而这些变量的期望值再被用于改进假设 可以证明:算法的每一次循环中,EM算法能使似然P(D|h)增加,除非P(D|h)达到局部最大,因此算法收敛到一个局部最大似然假设 EM算法的一般表述 EM算法可用于许多问题框架:其中需要估计一组描述基准概率分布的参数,只给定了由此分布产生的全部数据中能观察到的一部分。 上面的二均值问题中,感兴趣的参数是?=?1, ?2,全部数据是三元组xi,zi1,zi2,而只能观察到xi 一般地,令待估计参数是?,全部数据Y=X?Z,其中X是可观察数据,Z是未观察数据。 Z可看作一个随机变量,它的概率分布依赖于参数?和已知数据X Y也是一个随机变量,因为它由随机变量Z定义 EM算法的一般表述(2) EM算法通过搜寻使E[lnP(Y|h’)]最大的h’来寻找极大似然假设h’,其合理性是: P(Y|h’)是给定假设h’下全部数据Y的似然度,因此找到使得这个值最大的h’是合理的

文档评论(0)

小教资源库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档