机器学习课件14 机器学习总结.pptVIP

下载本文档

0
0
约1.98千字
约 25页
2024-08-05 发布于重庆
举报
版权申诉

机器学习课件14 机器学习总结.ppt

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

***机器学习*提纲机器学习应用需要厘清的问题*机器学习应用需要厘清的问题1.学习=表示+评价+优化2.泛化3.仅有数据还不够4.过拟合5.维数灾难6.特征工程7.理论分析8.更多数据胜过聪明的算法9.学习多个模型*1.学习=表示+评价+优化表示：选择一种特定的学习器（如分类器）集合（假设空间）评价：目标函数评价学习器的优劣优化：搜索方法，能够在假设空间中找到目标函数得分最高的学习器。*常用分类算法的三个组成部分*2.泛化很重要机器学习的基本目标是对训练集合中样本的泛化。训练样本与测试样本要不同。交叉验证：将训练数据随机地等分成若干份（如10份），其中每一份都作一次测试集，而其它剩下的数据用作训练。通常将泛化误差分解为偏差和方差。偏差度量了学习器倾向于一直学习相同错误的程度，而方差度量了学习器倾向于忽略真实信号、学习随机事物的程度。*方差与偏差例子*泛化误差*3.仅有数据还不够每个学习器都必须包含一些数据之外的领域知识或者假设才能将数据有效泛化。选择不同表示的关键标准之一是，它比较易于表达什么类型的知识。例如，如果我们拥有大量关于在我们领域是什么造成样本相似的知识，可以选择实例的方法。学习器将知识和数据相结合。*4.过拟合训练时准确率很高，但测试时准确率却很差。过拟合往往由于学习模型比较复杂，而导致学习结果的方差变大。对策：（1）交叉验证：利用交叉验证预先确定模型参数（2）正则化：对目标函数增加一个正则化项，以惩罚复杂结构的学习器我们会很容易在避免过拟合时，造成另外一个相反的错误——欠拟合*过拟合和欠拟合要学习一个完美的分类器来同时避免过拟合和欠拟合*正则化Letxbethemodelparametertobeestimated.Acommonlyemployedmodelforestimatingxisminloss(x)+λ×penalty(x)损失函数：度量估计值与真实值之间的差异LeastsquaresLogisticlossHingeloss…L1L2L1/2*损失函数HingelossshowninblueLogisticregressionloss,rescaledbyafactorof1/ln(2)showninred.MisclassificationerrorinblackSquarederroringreen.*5.维数灾难许多在低维空间表现很好的算法，当输入是高维度的时候，就变得计算不可行（intractable）了；在大多数应用中，样例在空间中并非均匀分布，而是集中在一个低维流形（manifold）上面或附近。学习器可以隐式地充分利用这个有效的更低维空间，也可以显式地进行降维。*不相关特征Thefigureontheleftshowstwoclasseswellseparatedontheverticalaxis.Thefigureontherightaddsanirrelevanthorizontalaxiswhichdestroysthegroupingandmakesmanypointsnearestneighborsoftheoppositeclass.*6.特征工程是关键有的机器学习项目成功了而有的则失败了。这是什么原因造成的呢？无疑最重要的因素是所利用的特征。特征设计需要经历多少试验和错误。特征工程往往是领域相关（domain-specific）的当然，机器学习的一个终极目标就是将特征工程过程越来越多地自动化。现在经常采用的一种方式是先自动产生大量的候选特征，然后选择最好的特征。*特征工程-特征相关性*7.更多的数据胜过聪明的算法当构建了最好的特征集，要进一步提高学习器性能有两个选择：（1）设计更好的学习算法（研究人员关注）（2）收集更多的数据（从业人员）有大量数据的笨算法要胜过数据量较少的聪明算法。目前，我们有海量数据，从理论上说，更多数据意味着我们可以学习更复杂的分类器，但在实践中由于复杂分类器需要更多的学习时间。一个解决方案是对复杂分类器提出快速学习算法。首先尝试简单的学习器总是有好处的（例如应该在逻辑斯特回归之前先尝试朴素贝叶斯，在支持向量机之前先尝试近邻）。**