- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
客户流失分类—4.8—项目实战在实际使用中,我们常常会使用基于树的模型,而不是仅仅使用树模型。基于树的模型有很多,比如随机森林、堆叠、提升等算法。此项目中,我们使用此类算法,搭建客户流失分类工作流。这些算法的特点就是使用多棵树组合形成一个新的模型,所以叫作集成学习。试一试使用随机森林、堆叠、自适应提升算法搭建客户流失分类工作流。如果有问题,请单击小部件左下角的“?”查看帮助文档。项目实施在软件中选择“随机森林”和“自适应提升算法”,并建立如图所示的工作流。—4.9—深入分析集成学习有一些共同点,也有很多不同点,我们深入分析一下这些方法的原理,方便自己可以调试出更好的模型。集成学习的好处就是可以让被集成的子模型们集思广益,起到三个臭皮匠赛过诸葛亮的效果。自助抽样在理解集成学习前,我们先了解一下什么是自助抽样(Bootstrap)。自助抽样就是随机有放回的抽样。比如,如图所示的果篮,我们从中取出一个水果,记录一下是什么但是没吃掉又原样放回去了,然后再取出一个水果再记录,完成三碗的抽样。袋装投票方法是袋装常用的一种方法。从训练集中自助抽样出n个样本集,建立n个决策树模型,然后这几个模型投票决定结果(图4-25)。堆叠堆叠类似袋装,它们最大的不同出现在投票阶段。在堆叠中,其投票方法不是袋装那样简单的“谁多听谁的”,而是将各个模型的预测结果作为输入,通入另一个“集成者”,让它判断最后结果到底是什么。随机森林随机森林不仅对样本进行自助抽样,而且对特征也进行抽样,每次抽m个特征(m一般为所有特征个数的平方根)。对特征抽样是为了防止特征之间的相关性对模型的影响。提升与袋装类似,提升算法的基本思想方法都是把多个弱分类器集成为强分类器。提升中每一次迭代则是基于前一次的数据进行修正,提高前一次模型中分错样本在下次抽中的概率。自适应提升提升算法是数据分析中十分热门的算法,这里我们介绍一下提升算法中基础的一个算法Adaboosting(AdaptiveBoosting),即自适应提升,其自适应在于:前一个分类器分错的样本会被用来训练下一个分类器。我们通过图来了解一下这个过程。假设对图4-28中两种颜色的点进行分类。自适应提升这个时候每一个数据的权重都一样,模型f1简单地如图4-29所示做了分类。可以发现,这个简单的划分有大量的划分错误,这个时候算法增大了错误数据的权重,如图中的右图显示就是增大了点的大小。自适应提升由于模型f1中错误的数据权重增大了,所以模型f2会更注重将f1分错的点分对,即如图4-30所示进行分类。自适应提升根据模型的错误率给模型赋予权重,错误率低权重就高,错误率高权重就低,也就是算法更看重分类效果好的模型的预测结果。然后将模型的预测结果加权相加,就是最后自适应提升的结果。自适应提升通过增多弱分类器的数目,一般可以提高最终模型的准确率。如图所示,更多的模型一起努力,得出一个强分类器。—4.10—本章小结本章通过引入客户流失分类这个问题,分别详细比较了逻辑回归、支持向量机、决策树和随机森林等算法在分类问题中的应用,并引导大家了解如何使用可视化功能查看数据,结合模型给出的结果,为业务优化打下基础。—4.11—课后练习(1)为什么支持向量机可以理解为“最宽大街法”?(2)支持向量机对异常值敏感吗?为什么?(3)用自己生活中的例子说明树模型的判断过程。(4)使用“橙现智能”提供的可视化方法,加深自己对数据的认知,你有什么新发现?(5)采用“查看树”小部件,你如何改善书中电信公司的客户流失情况呢?
您可能关注的文档
- 《快递实务》 课件 项目2 快递业务规范.ppt
- 《快递实务》 课件 项目3 快递收件业务操作.ppt
- 《快递实务》 课件 项目7 快递报价与赔偿业务.ppt
- 人工智能基础 课件 1.2 人工智能初识.pptx
- 人工智能基础 课件 1.3~1.6 人工智能初识.pptx
- 人工智能基础 课件 2.2~2.9 食堂消费预测.pptx
- 人工智能基础 课件 3.1~3.4 贫困生判别.pptx
- 人工智能基础 课件 3.6~3.7 贫困生判别.pptx
- 人工智能基础 课件 4.1~4.8 客户流失分类.pptx
- 人工智能基础 课件 5.1~5.15 图像识别.pptx
- 10《那一年,面包飘香》教案.docx
- 13 花钟 教学设计-2023-2024学年三年级下册语文统编版.docx
- 2024-2025学年中职学校心理健康教育与霸凌预防的设计.docx
- 2024-2025学年中职生反思与行动的反霸凌教学设计.docx
- 2023-2024学年人教版小学数学一年级上册5.docx
- 4.1.1 线段、射线、直线 教学设计 2024-2025学年北师大版七年级数学上册.docx
- 川教版(2024)三年级上册 2.2在线导航选路线 教案.docx
- Unit 8 Dolls (教学设计)-2024-2025学年译林版(三起)英语四年级上册.docx
- 高一上学期体育与健康人教版 “贪吃蛇”耐久跑 教案.docx
- 第1课时 亿以内数的认识(教学设计)-2024-2025学年四年级上册数学人教版.docx
文档评论(0)