- 1、本文档共71页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
宁夏大学第八章支持向量机
决策树算法www.islide.cc2目录
CONTENT01introduction引言02Algorithmoverview算法概述03Experimentaldata实验数据04Algorithmcombat算法实战05chaptersummary本章小结
SectionHeaderHere01introduction引言
引言支持向量机(SupportVectorMachine,SVM)是用于分类的一种算法,也属于有监督学习的范畴。让我们先从一个闯关的故事开始吧;第一关:桌子上似乎有规律地放了两种颜色的球,用一根棍子分离开他们,要求是尽量再放更多的球之后,仍然适用。第二关:桌子放上了更多的球,似乎有一个红球站错了阵营。
引言第三关:将球散乱地放在桌子上。现在已经没有方法用一根棍子将这些球分开了,怎么办呢?用手拍向桌子,然后桌子上的球就被震到空中,瞬间抓起一张纸,插到了两种球的中间。现在从另一个角度看这些球,这些球像是被一条曲线分开了。这些球叫做「data」,棍子叫做「classififier」,最大间隙trick叫做「optimization」,拍桌子叫做「kernelling」,那张纸叫做「hyperplane」。
引言?当一个分类问题,数据是线性可分的,我们只要将棍的位置放在让小球距离棍的距离最大化的位置即可,寻找这个最大间隔的过程,就叫做最优化。但是,现实的数据往往是线性不可分的,找不到一个棍将两种小球很好的分类。这个时候,就需要将小球拍起,用一张纸代替小棍将小球进行分类。想要让数据飞起,我们需要的东西就是核函数(kernel),用于切分小球的纸,就是超平面(hyperplane)。如果数据集是N维的,那么超平面就是N-1维的。
引言把一个数据集正确分开的超平面可能有多个(如下图),而那个具有“最大间隔”的超平面就是SVM要寻找的最优解。而这个真正的最优解对应的两侧虚线所穿过的样本点,就是SVM中的支持样本点,称为“支持向量(supportvector)“。支持向量到超平面的距离被称为间隔(margin)。
SectionHeaderHere02算法概述
SVM算法思想1.算法原理支持向量机(supportvectormachines,SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。2.算法流程一个最优化问题通常有两个最基本的因素:1)目标函数。2)优化对象。在线性SVM算法中,目标函数显然就是那个“间隔”,而优化对象则是超平面。
SVM算法思想?
SVM算法思想?
SVM算法思想?
SVM算法思想约束条件虽然找到了目标函数,但是: (1)如何判断一条直线能够将所有的样本点都正确分类? (2)超平面的位置应该是在间隔区域的中轴线上,所以确定超平面位置的b参数也不能随意的取值。 (3)对于一个给定的超平面,如何找到对应的支持向量,来计算距离d? 上述三个问题就是”约束条件“,也就是说,要优化的变量的取值范围收到了约束和限制。既然约束确实存在,那么就不得不用数学语言对它们进行描述。这里需要说明的是SVM可以通过一些小技巧,将这些约束条件糅合成一个不等式。
SVM算法思想请看下面糅合过程:以下图为例,在平面空间中有红蓝两种点,对其分别标记为:红色为正样本,标记为+1;蓝色为负样本,标记为-1.
SVM算法思想?
SVM算法思想?
SVM算法思想?
SVM算法思想?
SVM算法思想?
SVM算法思想?
SVM算法思想?(公式20)
SVM算法思想?
SVM算法思想?
SVM算法思想?
SVM算法思想?
SectionHeaderHere03实验数据
1准备数据数据集介绍:本实验数据集Titanic为1912年泰坦尼克号沉船事件中一些船员的个人信息以及存活状况。这些历史数据已经非分为训练集和测试集,可以根据训练集训练出合适的模型并预测测试集中的存活状况。训练集有891条记录,测试集有418条记录。
2处理数据对数据集进行规范化处理,具体实现步骤如下所示:
3数据划分对训练数据集进行划分,分别获取数据和对应标签:
SectionHeaderHere04案例实战
1算法构建SMO算法的伪代码
1算法构建构建辅助函数随机选
您可能关注的文档
- 人工智能创新实验教程 课件 第1--3章 实验环境搭建、python基础、机器学习基础.pptx
- 人工智能创新实验教程 课件 第4、5章 k-近邻算法、 决策树算法.pptx
- 人工智能创新实验教程 课件 第6、7章 朴素贝叶斯算法、 logistic回归算法.pptx
- 人工智能创新实验教程 课件 第10、11章 AdaBoost算法、 Apriori算法.pptx
- 人工智能创新实验教程 课件 第12--14章 深度学习基础、 感知机算法、 卷积神经网络.pptx
- 人工智能创新实验教程 课件 第15、16章 VGG16网络 、 循环神经网络.pptx
- 人工智能创新实验教程 课件全套 第1--16章 实验环境搭建、python基础--- 循环神经网络.pptx
- 流程管理TDSCDMA路测信令流程.pdf
- 建筑给排水工程某市学院校区给水施工组织设计.pdf
- 招聘面试 招聘技巧培训资料.pdf
文档评论(0)