人工智能基础 课件 4.9~4.13 客户流失分类.pptx

人工智能基础 课件 4.9~4.13 客户流失分类.pptx

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

客户流失分类—4.8—项目实战在实际使用中,我们常常会使用基于树的模型,而不是仅仅使用树模型。基于树的模型有很多,比如随机森林、堆叠、提升等算法。此项目中,我们使用此类算法,搭建客户流失分类工作流。这些算法的特点就是使用多棵树组合形成一个新的模型,所以叫作集成学习。试一试使用随机森林、堆叠、自适应提升算法搭建客户流失分类工作流。如果有问题,请单击小部件左下角的“?”查看帮助文档。项目实施在软件中选择“随机森林”和“自适应提升算法”,并建立如图所示的工作流。—4.9—深入分析集成学习有一些共同点,也有很多不同点,我们深入分析一下这些方法的原理,方便自己可以调试出更好的模型。集成学习的好处就是可以让被集成的子模型们集思广益,起到三个臭皮匠赛过诸葛亮的效果。自助抽样在理解集成学习前,我们先了解一下什么是自助抽样(Bootstrap)。自助抽样就是随机有放回的抽样。比如,如图所示的果篮,我们从中取出一个水果,记录一下是什么但是没吃掉又原样放回去了,然后再取出一个水果再记录,完成三碗的抽样。袋装投票方法是袋装常用的一种方法。从训练集中自助抽样出n个样本集,建立n个决策树模型,然后这几个模型投票决定结果(图4-25)。堆叠堆叠类似袋装,它们最大的不同出现在投票阶段。在堆叠中,其投票方法不是袋装那样简单的“谁多听谁的”,而是将各个模型的预测结果作为输入,通入另一个“集成者”,让它判断最后结果到底是什么。随机森林随机森林不仅对样本进行自助抽样,而且对特征也进行抽样,每次抽m个特征(m一般为所有特征个数的平方根)。对特征抽样是为了防止特征之间的相关性对模型的影响。提升与袋装类似,提升算法的基本思想方法都是把多个弱分类器集成为强分类器。提升中每一次迭代则是基于前一次的数据进行修正,提高前一次模型中分错样本在下次抽中的概率。自适应提升提升算法是数据分析中十分热门的算法,这里我们介绍一下提升算法中基础的一个算法Adaboosting(AdaptiveBoosting),即自适应提升,其自适应在于:前一个分类器分错的样本会被用来训练下一个分类器。我们通过图来了解一下这个过程。假设对图4-28中两种颜色的点进行分类。自适应提升这个时候每一个数据的权重都一样,模型f1简单地如图4-29所示做了分类。可以发现,这个简单的划分有大量的划分错误,这个时候算法增大了错误数据的权重,如图中的右图显示就是增大了点的大小。自适应提升由于模型f1中错误的数据权重增大了,所以模型f2会更注重将f1分错的点分对,即如图4-30所示进行分类。自适应提升根据模型的错误率给模型赋予权重,错误率低权重就高,错误率高权重就低,也就是算法更看重分类效果好的模型的预测结果。然后将模型的预测结果加权相加,就是最后自适应提升的结果。自适应提升通过增多弱分类器的数目,一般可以提高最终模型的准确率。如图所示,更多的模型一起努力,得出一个强分类器。—4.10—本章小结本章通过引入客户流失分类这个问题,分别详细比较了逻辑回归、支持向量机、决策树和随机森林等算法在分类问题中的应用,并引导大家了解如何使用可视化功能查看数据,结合模型给出的结果,为业务优化打下基础。—4.11—课后练习(1)为什么支持向量机可以理解为“最宽大街法”?(2)支持向量机对异常值敏感吗?为什么?(3)用自己生活中的例子说明树模型的判断过程。(4)使用“橙现智能”提供的可视化方法,加深自己对数据的认知,你有什么新发现?(5)采用“查看树”小部件,你如何改善书中电信公司的客户流失情况呢?

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档