生成学习算法剖析.docx

下载文档 降价啦

2
0
约6.56千字
约 15页
2017-06-09 发布于湖北
举报
版权申诉
保障服务

生成学习算法剖析.docx

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

生成学习算法剖析

第四部分生成学习算法到目前为止，我们主要讨论了建模——给定下的的条件分布——的学习算法。例如，逻辑回归把建模成，这里是sigmoid函数。在这些讲义中，我们将讨论一种不同形式的学习算法。考虑一个分类问题，在这个分类问题中，我们想基于一个动物的一些特征，来学习区分是大象（）还是小狗（）。给定一个训练集，一个诸如逻辑回归或感知器的算法（基本上）试图找到一条直线—也就是一个分界线—来分离大象和狗。然后，为了把一个新动物归类成大象或者小狗，要检查它落在了边界线的哪一侧，相应地做出预测。这里有一个不同的方法。首先，看大象，我们可以建立一个大象看起来像什么的模型。然后，看小狗，我们可以建立一个不同的小狗看起来像什么的模型。最后，为了把一个新动物分类，我们可以把它和大象模型相比配，而且把它和小狗模型相比配，来看那个新动物是看起??更像我们训练集中的大象，还是更像我们训练集中的小狗。试图直接学习的算法（例如逻辑回归）或试图学习从输入空间直接映射到标签的算法（如感知器算法），被称作判别学习算法(discriminative learing algorithms)。这里，我们反而将讨论试图建模（和）的算法。这些算法被称作生成学习算法(generative learing algorithms)。比如，如果表示一个样例是一只小狗(0)或者一只大象（1），然后是小狗特征分布的模型，是大象特征分布的模型。建完模型（称作类的先验(class priors)）和，我们的算法然后可以使用贝叶斯公式来推导给定时的的后验分布：这里，分母由给出（你应该能够核实这是标准的概率性质），因此也可以根据我们学习的和项表示出来。实际上，如果我们在为了做出预测而计算，然后我们实际上不需要计算分母，因为 1 高斯判别分析我们将要看的第一个生成学习算法是高斯判别分析（GDA）。在这个模型中，我们将假定服从多元正态分布。在继续讨论GDA模型本身之前，让我们简单的谈一下多元正态分布的特征。 1.1 多元正态分布 n维的多元正态分布，也称作多元高斯分布，是由一个均值向量(mean vector)和一个协方差矩阵(covariance matrix)参数化的，这里，是对称的和半正定的。也写作，它的密度由给出。在上面的等式中，表示矩阵的行列式。对于一个服从的随机变量，（毫无令人意外）均值由给出：一个向量值随机变量Z的协方差被定义为。这推广了一个实数值随机变量的方差的符号。协方差也可以被定义成。（你应该能够向自己证明这两个定义是相等的。）如果，那么这里有一些高斯分布的密度看起来像什么的例子：最左边的图形显示了一个零均值（即，2 x 1的0-向量）和协方差矩阵（2 x 2的单位矩阵）的高斯分布（的密度）。一个具有零均值和单位协方差（阵）的高斯分布也被称为标准正态分布(standard normal distribution)。中间的图形显示了一个具有零均值和的高斯分布的密度；最右边的图形显示了一个零均值和的高斯分布的密度。我们看到，随着变得更大，高斯分布变得更“分散”，当它变得更小，分布变得更“压紧”的。让我们再看一些例子。上面的图形显示了0均值和协方差矩阵分别为的高斯分布。最左边的图形显示了熟悉的标准正态分布，我们看到当我们增加中的非对角元素，沿45°直线（由给出的）密度变得更“压紧”。当我们看相同三个密度的轮廓时，我们可以更清晰地看到这些：这里是最后一组通过变化产生的例子。上边的图形分别使用了从最左边和中间的图形，我们看到通过减小协方差矩阵的对角线元素，密度现在再次变得“压紧的”，但是是相反的方向。最后，当我们改变参数，轮廓一般会形成椭圆形的（最右边的图形显示了这样一个例子）。作为我们最后一组例子，固定，通过改变，我们也可以在周围移动密度的均值。上面的图形由，均值向量分别为所生成的。 1.2 高斯判别分析模型当我们有一个输入特征是连续值随机变量的分类问题时，我们然后可以使用高斯判别分析（GDA）模型,这个模型使用多元正态分布建模。模型为：写出这个分布，它是：这里，我们模型的参数是。（注意，尽管模型中有两个不同的均值,但这个模型通常被使用时只使用一个协方差矩阵。）数据的log-似然由给出。通过关于参数来最大化，我们发现参数的最大似然估计为：形象地，算法在做什么如下所示：图形中显示的是训练集，和两个已经拟合了两类数据的高斯分布的轮廓。注意，两个高斯分布有相同形状和朝向的轮廓，因为他们共有一个协方差矩阵，但是他们有不同的均值。图形中也显示了一条给出决策边界的直线，在直线上。在边界的一侧，我们预测是最有可能的结果，在另一侧，我们预测（是最有可能的结果）。 1.3 讨论：GDA和逻辑回归 GDA模型同逻辑回归有一个有趣的关系。如果我们把看