deng-第5章分类和预测.ppt

下载文档 降价啦

1
0
约1.45万字
约 93页
2019-03-01 发布于福建
举报
版权申诉
保障服务

deng-第5章分类和预测.ppt

1、本文档共93页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第5章分类与预测教学目的、要求掌握分类的相关概念掌握决策树分类法教学重点及难点决策树分类法线性回归预测法 Outline 基本概念决策树分类预测小结 Outline 基本概念决策树分类预测小结超市的商品分类生活中的垃圾分类基本概念分类：把给定的数据划分到一定的类别中。分类过程： 1、建立模型（分类规则）：根据训练数据集（数据已被标好类别）的属性特征，为每一种类别找到一个合理的描述或模型，即分类规则。 2、使用模型进行分类根据建立的模型把还未分类的新数据分入不同的类别。已分类训练集?建模型,分类规则?应用于集合分类 Classification Process (1): Model Construction Classification Process (2): Use the Model in Prediction 有指导的学习 VS. 无指导的学习 Supervised vs. Unsupervised Learning 有指导的学习（用于分类）模型的学习在被告知每个训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到的规则进行分类无指导的学习（用于聚类）每个训练样本的类编号是未知的，要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类分类 VS 预测预测（Prediction ）：构造和使用模型评估无标号样本类，或评估给定样本可能具有的属性值或值区间。建立连续模型（规律）?预测未来或过去未知的数值分类和回归是两类主要预测问题。分类是预测离散或标称值（类标号）；回归是用于预测连续或有序值。 Classification vs. Prediction f : X?Y 如果Y 有太多的值（500个），称为预测；如果Y有5-20个值，称为分类 f-1(y) 称为一个类，类标为y. 所以分类是预测的特例。 Typical Applications 典型应用 credit approval 信用评估 target marketing 目标市场 medical diagnosis 医疗诊断 treatment effectiveness analysis 效率分析数据的准备Data Preparation Data cleaning 数据清理 Preprocess data in order to reduce noise and handle missing values Relevance analysis ( feature selection) 相关分析 Remove the irrelevant or redundant attributes （无关属性将减慢和可能误导学习步骤） Data transformation 数据转换 Generalize（概化） and/or normalize（规范化） data 分类算法的评估准确率：模型正确预测新数据类标号的能力速度：产生和使用模型花费的时间。 time to construct the model 挖掘速度 time to use the model 应用速度健壮性：有噪声数据或空缺值数据时模型正确分类或预测的能力。伸缩性：对于给定的大量数据，有效地构造模型的能力。易理解性：学习模型的可理解程度。 Outline 基本概念决策树分类线性回归小结判定（决策）树分类判定树（decision tree）：一个类似于流程图的树结构。其中每个内部结点表示在一个属性上的测试，每个分枝代表一个测试输出，而每个叶节点代表类或类分布。树的最顶层是根节点。判定树的生成由两个阶段组成判定树构建开始时，所有的训练样本都在根节点递归的通过选定的属性，来划分样本（必须是离散值）树剪枝许多分枝反映的是训练数据中的噪声和孤立点，树剪枝试图检测和剪去这种分枝判定树的使用：对未知样本进行分类通过将样本的属性值与判定树相比较决策树的优点 1、推理过程容易理解，决策推理过程可以表示成If Then形式； 2、推理过程完全依赖于属性变量的取值特点； 3、可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量的数目提供参考。决策树算法决策树学习是以样本为基础的归纳学习方法。归纳是从特殊到一般的过程。归纳推理从若干个事实中表征出的特征、特性和属性中，通过比较、总结、概括而得出一个规律性的结论。决策树算法决策树学习采用自顶向下的递归方式构造决策树。常用决策树方法有CLS