数学建模_决策树.ppt

下载文档 降价啦

14
0
约5.04千字
约 37页
2019-11-05 发布于浙江
举报
版权申诉
保障服务

数学建模_决策树.ppt

1、本文档共37页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * 决策树的优点可以生成可以理解的规则；计算量相对来说不是很大；可以处理连续和离散字段；可以处理残缺数据决策树可以清晰的显示哪些字段比较重要不足之处对连续性的字段比较难预测当类别太多时，错误可能会增加的比较快一般的算法分类的时候，只是根据一个属性来分类。不是全局最优。随机森林的定义随机森林是一个树型分类器{h(x,?k),k=1,…}的集合。其中元分类器h(x,?k)是决策树；森林的输出采用简单多数投票法（针对分类）或单颗树输出结果的简单平均（针对回归）得到。随机森林算法随机选取训练样本集：使用Bagging方法形成每颗树的训练集随机选取分裂属性集：假设共有M个属性，指定一个属性数F≤M，在每个内部结点，从M个属性中随机抽取F个属性作分裂属性集，以这F个属性上最好的分裂方式对结点进行分裂（在整个森林的生长过程中， F的值一般维持不变）每颗树任其生长，不进行剪枝随机森林算法 Bagging(Breiman,1996)? 在训练的每一轮中，均从原始样本集S中有放回地随机抽取训练样本集T（T的样本个数同S），这样一个初始样本在某轮训练中可能出现多次或根本不出现（ S中每个样本未被抽取的概率为(1-1/|S|)|S|≈0.368，当|S|很大时）。最终的分类规则为简单多数投票法或简单平均法影响随机森林分类性能的主要因素森林中单颗树的分类强度（Strength）：每颗树的分类强度越大，则随机森林的分类性能越好。森林中树之间的相关度（Correlation）：树之间的相关度越大，则随机森林的分类性能越差。随机森林的特点两个随机性的引入，使得随机森林不容易陷入过拟合两个随机性的引入，使得随机森林具有很好的抗噪声能力对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化。 * 决策树概要简介决策树表示法决策树学习的适用问题基本的决策树学习算法决策树学习中的假想空间搜索决策树学习的常见问题简介决策树方法是应用最广的归纳推理算法之一一种逼近离散值目标函数的方法对噪声数据有很好的健壮性且能学习析取表达式决策树的表示法决策树通过把实例从根节点排列到某个叶子节点来分类实例，叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性的测试，并且该节点的每一个后继分支对应于该属性的一个可能值图表达式决策树学习的适用问题实例是由属性-值对表示的目标函数具有离散的输出值训练数据可以包含错误训练数据可以包含缺少属性值的实例属性选择构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子，可以有很多决策树能符合这组例子。人们研究出，一般情况下或具有较大概率地说，树越小则树的预测能力越强。要构造尽可能小的决策树，关键在于选择恰当的逻辑判断或属性。由于构造最小的树是NP-难问题，因此只能采取用启发式策略选择好的逻辑判断或属性。用熵度量样例的均一性（纯度）熵的定义举例用信息增益度量期望熵最低举例 ID3算法(Iterative Dichotomiser 3) 创建树的Root结点如果Examples都为正，那么返回label=+中的单结点Root 如果Examples都为反，那么返回lable=-单结点树Root 如果Attributes为空，那么返回单节点树Root，lable=Examples中最普遍的目标属性值否则开始 A?Attributes中分类能力最好的属性 Root的决策属性?A 对于每个可能值在Root下加一个新的分支对应测试A=vi 令Example-vi为Examples中满足A属性值为vi的子集如果Examples-vi为空在这个新分支下加一个叶子结点，节点的lable=Examples中最普遍的目标属性值否则在这个新分支下加一个子树ID3(example-vi,target- attribute,attributes-|A| 结束返回 Root Example 2 Factors affecting sunburn S = [3+, 5-] Entropy(S) = -(3/8)log2(3/8) – (5/8)log2(5/8) = 0.95443 Find IG for all 4 attributes: Hair, Height, Weight, Lotion For attribute ‘Hair’: Values(Hair) : [Blonde, Brown, Red] S = [3+,5-] SBlonde = [2+,2-] E(SBlonde) = 1 SBrown =