支持向量机原理在svm应用研究中的应用.docx

支持向量机原理在svm应用研究中的应用.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
支持向量机原理在svm应用研究中的应用 机器学习从观测数据开始找到规律,并利用这些规律预测未来数据或不可观测数据。其重要理论基础之一是统计学。统计学习理论(Statistical Learn-ing Theory,SLT)专门研究实际应用中有限样本情况的机器学习规律,并发展了支持向量机(Support Vector Machine,SVM)这一新的通用学习方法,由于它基于结构风险最小化(SRM)原理,而不是传统统计学的经验风险最小化(ERM),表现出很多优于已有方法的性能,迅速引起各领域的注意和研究兴趣,取得了大量的应用研究成果,推动了各领域的发展。 1 估计系统的依赖关系 机器学习的目的是根据给定的训练样本(x1,y1),(x2,y2),...,(xn,yn)来估计某系统的输入和输出之间的依赖关系,即寻找最优函数f(x,w0),使它能对未知输出作尽可能准确的预测。评估的方法是使期望风险R(w)最小。 1.1 实际风险与学习机器 由于可以利用的信息只有有限样本,无法计算期望风险,因此传统的学习方法中采用了所谓经验风险最小化(Empirical Risk Minimization,ERM)准则,即用样本定义经验风险: 统计学习理论系统地研究了各种类型的函数集,经验风险和实际风险之间的关系,即推广性的界。关于两类分类问题的结论是:对指示函数(即两类分类情况的预测函数)集中的所有函数,经验风险Remp(w)和实际风险之间以至少1-η的概率满足如下关系: 其中h是函数集的VC维,表征了复杂性高低;n是样本数。这一结论从理论上说明了学习机器的实际风险是由两部分组成的:一是经验风险(训练误差),另一部分称作置信范围,它和学习机器的复杂性及训练样本数有关。它表明,在有限训练样本下,学习机器的VC维越高(复杂性越高)则置信范围越大,导致真实风险与经验风险之间可能的差别越大。这就是为什么会出现过学习现象的原因。机器学习过程不但要使经验风险最小,还要使VC维尽量小以缩小置信范围,才能取得较小的实际风险。这种思想称作结构风险最小化(Structural Risk Minimization,SRM)即SRM准则。 1.2 最优分类超平面 SVM是从线性可分情况下的最优分类面发展而来的,基本思想可用两类线性可分情况说明。如图1所示,实心点和空心点代表两类样本。假如这两类样本(训练集)是线性可分的,则机器学习的结果是一个超平面(二维情况下是直线)或称为判别函数,该超平面可以将训练样本分为正负两类。 显然,按ERM的要求,这样的超平面有无穷多个,但有的超平面对训练样本来说,其分类非常好(经验风险Remp(w)最小,为0),但其预测推广能力却非常差,如图1中的超平面P1。而按照SRM的要求,学习的结果应是最优的超平面P0,即该平面不仅能将两类训练样本正确分开,而且要使分类间隔(Margin)最大。实际上就是对推广能力的控制,这是SVM的核心思想之一。所谓分类间隔是指两类中离分类超平面最近的样本且平行于分类超平面的两个超平面间的距离,或者说是从分类超平面到两类样本中最近样本的距离的和,这些最近样本可能不止2个,正是它们决定了分类超平面,也就是确定了最优分类超平面,这些样本就是所谓的支持向量(Support Vectors)。假设一个m维超平面由以下方程描述: 则可以通过求的极小值获得分类间隔最大的最优超平面,这里的约束条件为 该约束优化问题可以用Lagrange方法求解,令 其中αi≥为每个样本的拉氏乘子,由L分别对b和w导数为0,可以导出: 因此,解向量有一个由训练样本集的一个子集样本向量构成的展开式,该子集样本的拉氏乘子均不为0,即支持向量。拉氏乘子为0的样本向量的贡献为0,对选择分类超平面是无意义的。于是,就从训练集中得到了描述最优分类超平面的决策函数即支持向量机,它的分类功能由支持向量决定。这样决策函数可以表示为 在线性不可分的情况下,比如存在噪声数据的情况,可以在式(4)中增加一个松弛项ξi≥0,成为 将目标改为求下式最小: 回顾决策函数式(8),(x?xi)实际上相当于就是x和xi的相似度。对更一般的情况,需要这样的函数K,对任意两个样本向量x和xi,它的返回值K(x,xi)就是描述两者的相似度的一个数值,这样的一个函数就是所谓的核函数(kernel)。对于实际上难以线性分类的问题,待分类样本可以通过选择适当的非线性变换映射到某个高维的特征空间(feature space),使得在目标高维空间这些样本线性可分,从而转化为线性可分问题。Cover定理表明,通过这种非线性转换将非线性可分样本映射到足够高维的特征空间,非线性可分的样本将以极大的可能性变为线性可分。如果这个非线性转换为φ(x),则超平面决策函数式(8)可重写为 在上面的问题中只涉及训练样

文档评论(0)

lmzwkyc + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档