deng-第5章分类和预测.ppt

  1. 1、本文档共93页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 分类与预测 教学目的、要求 掌握分类的相关概念 掌握决策树分类法 教学重点及难点 决策树分类法 线性回归预测法 Outline 基本概念 决策树分类 预测 小结 Outline 基本概念 决策树分类 预测 小结 超市的商品分类 生活中的垃圾分类 基本概念 分类:把给定的数据划分到一定的类别中。 分类过程: 1、建立模型(分类规则): 根据训练数据集(数据已被标好类别)的属性特征,为每一种类别找到一个合理的描述或模型,即分类规则。 2、使用模型进行分类 根据建立的模型把还未分类的新数据分入不同的类别。 已分类训练集?建模型,分类规则?应用于集合分类 Classification Process (1): Model Construction Classification Process (2): Use the Model in Prediction 有指导的学习 VS. 无指导的学习 Supervised vs. Unsupervised Learning 有指导的学习(用于分类) 模型的学习在被告知每个训练样本属于哪个类的“指导”下进行 新数据使用训练数据集中得到的规则进行分类 无指导的学习(用于聚类) 每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的 通过一系列的度量、观察来建立数据中的类编号或进行聚类 分类 VS 预测 预测(Prediction ):构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间。 建立连续模型(规律)?预测未来或过去未知的数值 分类和回归是两类主要预测问题。 分类是预测离散或标称值(类标号); 回归是用于预测连续或有序值。 Classification vs. Prediction f : X?Y 如果Y 有太多的值(500个), 称为预测;如果Y有5-20个值,称为分类 f-1(y) 称为一个类,类标为y. 所以分类是预测的特例。 Typical Applications 典型应用 credit approval 信用评估 target marketing 目标市场 medical diagnosis 医疗诊断 treatment effectiveness analysis 效率分析 数据的准备Data Preparation Data cleaning 数据清理 Preprocess data in order to reduce noise and handle missing values Relevance analysis ( feature selection) 相关分析 Remove the irrelevant or redundant attributes (无关属性将减慢和可能误导学习步骤) Data transformation 数据转换 Generalize(概化) and/or normalize(规范化) data 分类算法的评估 准确率:模型正确预测新数据类标号的能力 速度:产生和使用模型花费的时间。 time to construct the model 挖掘速度 time to use the model 应用速度 健壮性:有噪声数据或空缺值数据时模型正确分类或预测的能力。 伸缩性:对于给定的大量数据,有效地构造模型的能力。 易理解性:学习模型的可理解程度。 Outline 基本概念 决策树分类 线性回归 小结 判定(决策)树分类 判定树(decision tree):一个类似于流程图的树结构。 其中每个内部结点表示在一个属性上的测试, 每个分枝代表一个测试输出, 而每个叶节点代表类或类分布。 树的最顶层是根节点。 判定树的生成由两个阶段组成 判定树构建 开始时,所有的训练样本都在根节点 递归的通过选定的属性,来划分样本 (必须是离散值) 树剪枝 许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝 判定树的使用:对未知样本进行分类 通过将样本的属性值与判定树相比较 决策树的优点 1、推理过程容易理解,决策推理过程可以表示成If Then形式; 2、推理过程完全依赖于属性变量的取值特点; 3、可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考。 决策树算法 决策树学习是以样本为基础的归纳学习方法。 归纳是从特殊到一般的过程。归纳推理从若干个事实中表征出的特征、特性和属性中,通过比较、总结、概括而得出一个规律性的结论。 决策树算法 决策树学习采用自顶向下的递归方式构造决策树。 常用决策树方法有CLS

文档评论(0)

kbook + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档