- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章分类与回归
3.1简述决策树分类的主要步骤。
3.2给定决策树,选项有:(1)将决策树转换成规则,然后对结果规则剪枝,或2)对决策树剪枝,然后将剪 枝后的树转换成规则。相对于(2),(1)的优点是什么?
3.3计算决策树算法在最坏情况下的时间复杂度是重要的。给定数据集D,具有m个属性和IDI个训练记录,
证明决策树生长的计算时间最多为mx Dxlog(|D\)。
3.4考虑表3-23所示二元分类问题的数据集。
计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性?
计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择那个属性?
3.5证明:将结点划分为更小的后续结点之后,结点熵不会增加。
3.6为什么朴素贝叶斯称为“朴素”?简述朴素贝叶斯分类的主要思想。
3.7考虑表3-24数据集,请完成以下问题:
表3-24习题3.7数据集
记录号
A
B
C
类
1
0
0
0
+
2
0
0
1
-
3
0
1
1
4
0
1
1
-
5
0
0
1
+
6
1
0
1
+
7
1
0
1
8
1
0
1
-
9
1
1
1
+
10
1
0
1
+
估计条件概率 P(A | +),P(B | +),P(C | +),P(A | -),P(B | -),P(C | -)。
(2艮据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号;
使用 Laplace 估计方法,其中 p=1/2,1=4,估计条件概率P(A | +), P(B | +), P(C | +), P(A | -),
P(B | -), P(C | -)。
同(2),使用(3)中的条件概率
比较估计概率的两种方法,哪一种更好,为什么?
3.8考虑表3-25中的一维数据集。
表3-25习题3.8数据集
X
0.5
3.0
4.5
4.6
4.9
5.2
5.3
5.5
7.0
9.5
Y
-
-
+
+
+
-
-
+
-
-
根据1-最近邻、3-最近邻、5-最近邻、9-最近邻,对数据点x=5.0分类,使用多数表决。
3.9表3-26的数据集包含两个属性X与Y,两个类标号“+”和“-”。每个属性取三个不同值策略:0,1或
2。+”类的概念是Y=1,-”类的概念是X=0 and X=2。
表3-26习题3.9数据集
XY
X
Y
0
0
1
0
2
0
1
1
2
1
0
2
1
2
2
2
实例数
+
-
0
100
0
0
0
100
10
0
10
100
0
100
0
0
0
100
⑴建立该数据集的决策树。该决策树能捕捉到“+”和“-”的概念吗?
决策树的准确率、精度、召回率和F1各是多少?(注意,精度、召回率和F1量均是对“+”类定
义)
使用下面的代价函数建立新的决策树,新决策树能捕捉到“+”的概念么?
顷,一
-实例个数
-实例个数
+实例个数
如果i = 一,j = +
(提示:只需改变原决策树的结点。)
3.10什么是提升?陈述它为何能提高决策树归纳的准确性? 3.11表3-27给出课程数据库中学生的期中和期末考试成绩。
表3-27习题3.11数据集
期中考试
期末考试
X
Y
72
84
50
63
81
77
74
78
94
90
86
75
59
49
83
79
65
77
33
52
88
74
81
90
(1)绘制数据的散点图。X和Y看上去具有线性联系吗?
使用最小二乘法,由学生课程中成绩预测学生的期末成绩的方程式。
预测期中成绩为86分的学生的期末成绩。
3.12通过对预测变量变换,有些非线性回归模型可以转换成线性模型。指出如何将非线性回归方程
y = ^x P转换成可以用最小二乘法求解的线性回归方程。
文档评论(0)