第3章 分类与回归.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章分类与回归 3.1简述决策树分类的主要步骤。 3.2给定决策树,选项有:(1)将决策树转换成规则,然后对结果规则剪枝,或2)对决策树剪枝,然后将剪 枝后的树转换成规则。相对于(2),(1)的优点是什么? 3.3计算决策树算法在最坏情况下的时间复杂度是重要的。给定数据集D,具有m个属性和IDI个训练记录, 证明决策树生长的计算时间最多为mx Dxlog(|D\)。 3.4考虑表3-23所示二元分类问题的数据集。 计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性? 计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择那个属性? 3.5证明:将结点划分为更小的后续结点之后,结点熵不会增加。 3.6为什么朴素贝叶斯称为“朴素”?简述朴素贝叶斯分类的主要思想。 3.7考虑表3-24数据集,请完成以下问题: 表3-24习题3.7数据集 记录号 A B C 类 1 0 0 0 + 2 0 0 1 - 3 0 1 1 4 0 1 1 - 5 0 0 1 + 6 1 0 1 + 7 1 0 1 8 1 0 1 - 9 1 1 1 + 10 1 0 1 + 估计条件概率 P(A | +),P(B | +),P(C | +),P(A | -),P(B | -),P(C | -)。 (2艮据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号; 使用 Laplace 估计方法,其中 p=1/2,1=4,估计条件概率P(A | +), P(B | +), P(C | +), P(A | -), P(B | -), P(C | -)。 同(2),使用(3)中的条件概率 比较估计概率的两种方法,哪一种更好,为什么? 3.8考虑表3-25中的一维数据集。 表3-25习题3.8数据集 X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5 Y - - + + + - - + - - 根据1-最近邻、3-最近邻、5-最近邻、9-最近邻,对数据点x=5.0分类,使用多数表决。 3.9表3-26的数据集包含两个属性X与Y,两个类标号“+”和“-”。每个属性取三个不同值策略:0,1或 2。+”类的概念是Y=1,-”类的概念是X=0 and X=2。 表3-26习题3.9数据集 XY X Y 0 0 1 0 2 0 1 1 2 1 0 2 1 2 2 2 实例数 + - 0 100 0 0 0 100 10 0 10 100 0 100 0 0 0 100 ⑴建立该数据集的决策树。该决策树能捕捉到“+”和“-”的概念吗? 决策树的准确率、精度、召回率和F1各是多少?(注意,精度、召回率和F1量均是对“+”类定 义) 使用下面的代价函数建立新的决策树,新决策树能捕捉到“+”的概念么? 顷,一 -实例个数 -实例个数 +实例个数 如果i = 一,j = + (提示:只需改变原决策树的结点。) 3.10什么是提升?陈述它为何能提高决策树归纳的准确性? 3.11表3-27给出课程数据库中学生的期中和期末考试成绩。 表3-27习题3.11数据集 期中考试 期末考试 X Y 72 84 50 63 81 77 74 78 94 90 86 75 59 49 83 79 65 77 33 52 88 74 81 90 (1)绘制数据的散点图。X和Y看上去具有线性联系吗? 使用最小二乘法,由学生课程中成绩预测学生的期末成绩的方程式。 预测期中成绩为86分的学生的期末成绩。 3.12通过对预测变量变换,有些非线性回归模型可以转换成线性模型。指出如何将非线性回归方程 y = ^x P转换成可以用最小二乘法求解的线性回归方程。

文档评论(0)

dajiefude2 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档