生成学习算法剖析.docx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生成学习算法剖析

第四部分 生成学习算法 到目前为止,我们主要讨论了建模——给定下的的条件分布——的学习算法。例如,逻辑回归把建模成,这里是sigmoid函数。在这些讲义中,我们将讨论一种不同形式的学习算法。 考虑一个分类问题,在这个分类问题中,我们想基于一个动物的一些特征,来学习区分是大象()还是小狗()。给定一个训练集,一个诸如逻辑回归或感知器的算法(基本上)试图找到一条直线—也就是一个分界线—来分离大象和狗。然后,为了把一个新动物归类成大象或者小狗,要检查它落在了边界线的哪一侧,相应地做出预测。 这里有一个不同的方法。首先,看大象,我们可以建立一个大象看起来像什么的模型。然后,看小狗,我们可以建立一个不同的小狗看起来像什么的模型。最后,为了把一个新动物分类,我们可以把它和大象模型相比配,而且把它和小狗模型相比配,来看那个新动物是看起??更像我们训练集中的大象,还是更像我们训练集中的小狗。 试图直接学习的算法(例如逻辑回归)或试图学习从输入空间直接映射到标签的算法(如感知器算法),被称作判别学习算法(discriminative learing algorithms)。这里,我们反而将讨论试图建模(和)的算法。这些算法被称作生成学习算法(generative learing algorithms)。比如,如果表示一个样例是一只小狗(0)或者一只大象(1),然后是小狗特征分布的模型,是大象特征分布的模型。 建完模型(称作类的先验(class priors))和,我们的算法然后可以使用贝叶斯公式来推导给定时的的后验分布: 这里,分母由给出(你应该能够核实这是标准的概率性质),因此也可以根据我们学习的和项表示出来。实际上,如果我们在为了做出预测而计算,然后我们实际上不需要计算分母,因为 1 高斯判别分析 我们将要看的第一个生成学习算法是高斯判别分析(GDA)。在这个模型中,我们将假定服从多元正态分布。在继续讨论GDA模型本身之前,让我们简单的谈一下多元正态分布的特征。 1.1 多元正态分布 n维的多元正态分布,也称作多元高斯分布,是由一个均值向量(mean vector)和一个协方差矩阵(covariance matrix)参数化的,这里,是对称的和半正定的。也写作,它的密度由 给出。在上面的等式中,表示矩阵的行列式。 对于一个服从的随机变量,(毫无令人意外)均值由给出: 一个向量值随机变量Z的协方差被定义为。这推广了一个实数值随机变量的方差的符号。协方差也可以被定义成。(你应该能够向自己证明这两个定义是相等的。)如果,那么 这里有一些高斯分布的密度看起来像什么的例子: 最左边的图形显示了一个零均值(即,2 x 1的0-向量)和协方差矩阵(2 x 2的单位矩阵)的高斯分布(的密度)。一个具有零均值和单位协方差(阵)的高斯分布也被称为标准正态分布(standard normal distribution)。中间的图形显示了一个具有零均值和的高斯分布的密度;最右边的图形显示了一个零均值和的高斯分布的密度。我们看到,随着变得更大,高斯分布变得更“分散”,当它变得更小,分布变得更“压紧”的。 让我们再看一些例子。 上面的图形显示了0均值和协方差矩阵分别为 的高斯分布。最左边的图形显示了熟悉的标准正态分布,我们看到当我们增加中的非对角元素,沿45°直线(由给出的)密度变得更“压紧”。当我们看相同三个密度的轮廓时,我们可以更清晰地看到这些: 这里是最后一组通过变化产生的例子。 上边的图形分别使用了 从最左边和中间的图形,我们看到通过减小协方差矩阵的对角线元素,密度现在再次变得“压紧的”,但是是相反的方向。最后,当我们改变参数,轮廓一般会形成椭圆形的(最右边的图形显示了这样一个例子)。 作为我们最后一组例子,固定,通过改变,我们也可以在周围移动密度的均值。 上面的图形由,均值向量分别为 所生成的。 1.2 高斯判别分析模型 当我们有一个输入特征是连续值随机变量的分类问题时,我们然后可以使用高斯判别分析(GDA)模型,这个模型使用多元正态分布建模。模型为: 写出这个分布,它是: 这里,我们模型的参数是。(注意,尽管模型中有两个不同的均值,但这个模型通常被使用时只使用一个协方差矩阵。)数据的log-似然由 给出。 通过关于参数来最大化,我们发现参数的最大似然估计为: 形象地,算法在做什么如下所示: 图形中显示的是训练集,和两个已经拟合了两类数据的高斯分布的轮廓。注意,两个高斯分布有相同形状和朝向的轮廓,因为他们共有一个协方差矩阵,但是他们有不同的均值。图形中也显示了一条给出决策边界的直线,在直线上。在边界的一侧,我们预测是最有可能的结果,在另一侧,我们预测(是最有可能的结果)。 1.3 讨论:GDA和逻辑回归 GDA模型同逻辑回归有一个有趣的关系。如果我们把看

您可能关注的文档

文档评论(0)

586334000 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档