第6章_贝叶斯学习与em算法.ppt

下载文档 降价啦

9
0
约1.89万字
约 127页
2019-07-16 发布于江西
举报
版权申诉
保障服务

第6章_贝叶斯学习与em算法.ppt

1、本文档共127页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * 先是乘法规则，如果A1、A2独立则进一步简化。 * 隐马尔科夫模型)是一种用参数表示的用于描述随机过程统计特性的概率模型, 是一个双重随机过程, 由两个部分组成:马尔可夫链和一般随机过。其中马尔可夫链用来描述状态的转移，用转移概率描述。一般随机过程用来描述状态与观察序列间的关系，用观察值概率描述。最大期望算法（Expectation-maximization algorithm，又译期望最大化算法）在统计中被用于隐性变量的概率模型中，参数的最大似然估计。寻找，依赖于不可观察的 * 期望 ?g: 估计期望当yi ? l 为0 期望期望期望 1 最大化给定初始估计值 ?g, 需要找到合适参数 ?, 使得期望最大化实际上, 就是反复迭代. 混合高斯模型高斯模型为 d 维，第 j个模型可表示为: 该GMM有 M 个模型: 目标混合模型其中，最大化: 目标混合模型其中最大化: 仅与 ?l 相关. 仅与 ?l 相关. 求 ?l 由于有 ?l的约束,为典型求条件极值问题，故引入拉格朗日乘子 ?, 并构成以下等式. 求?l 1 N 1 求 ?l 求 ?l Only need to maximize this term 考虑 GMM unrelated 求 ?l Only need to maximize this term 因此, 需最大化: unrelated 为什么? 主要是基于矩阵代数知识. 求 ?l 因此, 需最大化: 小结针对高斯混合模型 GMM的EM算法给定初始估计值 ?g, 寻找新的参数 ?new 如下：不收敛估计k个高斯分布的均值考虑D是一个实例集合，它由k个不同正态分布的混合所得分布生成每个实例使用一个两步骤的过程形成：首先，随机选择k个正态分布中的一个其次，随机变量xi按照此选择的分布生成考虑一个简单情形：单个正态分布的选择基于均匀的概率进行，且k个正态分布有相同的方差学习任务：输出一个假设h=?1...?k，描述k个分布中每个分布的均值，找到极大似然假设，即使得p(D|h)最大化的假设估计k个高斯分布的均值（2）当给定从一个正态分布中抽取的数据实例x1,...,xm时，很容易计算该分布的均值的极大似然假设，它是前面介绍的最小误差平方假设的一个特例，表示如下然而，现在的问题涉及k个不同正态分布，而且不知道哪个实例是哪个分布产生的。这是一个涉及隐藏变量的典型例子；对于图6-4的例子，每个实例的完整描述是三元组xi,zi1,zi2，其中xi是第i个实例的观测值，zi1和zi2表示哪个正态分布被用来产生xi，是隐藏变量 (6.27,28) 图6-4 由两个具有相等方差的正态分布混合生成的例子估计k个高斯分布的均值（3）如果zi1和zi2的值可知，就可用式子6.27来解决，否则使用EM算法 EM算法根据当前假设?1...?k，不断地再估计隐藏变量zij的期望值，然后用这些隐藏变量的期望值重新计算极大似然假设以图6-4为例，先将假设初始化为h=?1, ?2 计算每个隐藏变量zij的期望值E[zij]，假定当前假设h=?1, ?2成立计算一个新的极大似然假设h’=?’1, ?’2，假定每个隐藏变量zij所取值是第一步得到的期望值E[zij]。将假设替换为h’=?’1, ?’2，然后循环两个步骤的计算式 E[zij]正是实例xi由第j个正态分布生成的概率第二步，使用第一步得到的E[zij]来导出一新的极大似然假设两个步骤的计算式（2）第二步中的表达式类似于式6.28，只是变成了加权样本均值 EM算法的要点：当前的假设用于估计未知变量，而这些变量的期望值再被用于改进假设可以证明：算法的每一次循环中，EM算法能使似然P(D|h)增加，除非P(D|h)达到局部最大，因此算法收敛到一个局部最大似然假设 EM算法的一般表述 EM算法可用于许多问题框架：其中需要估计一组描述基准概率分布的参数，只给定了由此分布产生的全部数据中能观察到的一部分。上面的二均值问题中，感兴趣的参数是?=?1, ?2，全部数据是三元组xi,zi1,zi2，而只能观察到xi 一般地，令待估计参数是?，全部数据Y=X?Z，其中X是可观察数据，Z是未观察数据。 Z可看作一个随机变量，它的概率分布依赖于参数?和已知数据X Y也是一个随机变量，因为它由随机变量Z定义 EM算法的一般表述（2） EM算法通过搜寻使E[lnP(Y|h’)]最大的h’来寻找极大似然假设h’，其合理性是： P(Y|h’)是给定假设h’下全部数据Y的似然度，因此找到使得这个值最大的h’是合理的