- 1、本文档共93页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章分类与预测 教学目的、要求 掌握分类的相关概念 掌握决策树分类法 教学重点及难点 决策树分类法 线性回归预测法 Outline 基本概念 决策树分类 预测 小结 Outline 基本概念 决策树分类 预测 小结 超市的商品分类 生活中的垃圾分类 基本概念 分类:把给定的数据划分到一定的类别中。 分类过程: 1、建立模型(分类规则): 根据训练数据集(数据已被标好类别)的属性特征,为每一种类别找到一个合理的描述或模型,即分类规则。 2、使用模型进行分类 根据建立的模型把还未分类的新数据分入不同的类别。 已分类训练集?建模型,分类规则?应用于集合分类 Classification Process (1): Model Construction Classification Process (2): Use the Model in Prediction 有指导的学习 VS. 无指导的学习 Supervised vs. Unsupervised Learning 有指导的学习(用于分类) 模型的学习在被告知每个训练样本属于哪个类的“指导”下进行 新数据使用训练数据集中得到的规则进行分类 无指导的学习(用于聚类) 每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的 通过一系列的度量、观察来建立数据中的类编号或进行聚类 分类 VS 预测 预测(Prediction ):构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间。 建立连续模型(规律)?预测未来或过去未知的数值 分类和回归是两类主要预测问题。 分类是预测离散或标称值(类标号); 回归是用于预测连续或有序值。 Classification vs. Prediction f : X?Y 如果Y 有太多的值(500个), 称为预测;如果Y有5-20个值,称为分类 f-1(y) 称为一个类,类标为y. 所以分类是预测的特例。 Typical Applications 典型应用 credit approval 信用评估 target marketing 目标市场 medical diagnosis 医疗诊断 treatment effectiveness analysis 效率分析 数据的准备Data Preparation Data cleaning 数据清理 Preprocess data in order to reduce noise and handle missing values Relevance analysis ( feature selection) 相关分析 Remove the irrelevant or redundant attributes (无关属性将减慢和可能误导学习步骤) Data transformation 数据转换 Generalize(概化) and/or normalize(规范化) data 分类算法的评估 准确率:模型正确预测新数据类标号的能力 速度:产生和使用模型花费的时间。 time to construct the model 挖掘速度 time to use the model 应用速度 健壮性:有噪声数据或空缺值数据时模型正确分类或预测的能力。 伸缩性:对于给定的大量数据,有效地构造模型的能力。 易理解性:学习模型的可理解程度。 Outline 基本概念 决策树分类 线性回归 小结 判定(决策)树分类 判定树(decision tree):一个类似于流程图的树结构。 其中每个内部结点表示在一个属性上的测试, 每个分枝代表一个测试输出, 而每个叶节点代表类或类分布。 树的最顶层是根节点。 判定树的生成由两个阶段组成 判定树构建 开始时,所有的训练样本都在根节点 递归的通过选定的属性,来划分样本 (必须是离散值) 树剪枝 许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝 判定树的使用:对未知样本进行分类 通过将样本的属性值与判定树相比较 决策树的优点 1、推理过程容易理解,决策推理过程可以表示成If Then形式; 2、推理过程完全依赖于属性变量的取值特点; 3、可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考。 决策树算法 决策树学习是以样本为基础的归纳学习方法。 归纳是从特殊到一般的过程。归纳推理从若干个事实中表征出的特征、特性和属性中,通过比较、总结、概括而得出一个规律性的结论。 决策树算法 决策树学习采用自顶向下的递归方式构造决策树。 常用决策树方法有CLS
您可能关注的文档
- 《基因工程》课件.ppt
- 《建筑设计精品课程》柱格作为建立-空间层次-的工具.ppt
- 《汽车实用英语》单元.ppt
- 2-企业标准体系简介.ppt
- chap6-输入输出接口.ppt
- FLAC3D在岩土工程中的应用.ppt
- MRI基本病变影像学表现.ppt
- 《孔雀东南飞》优质课件.ppt
- 第四单元-遗传的分子基础.ppt
- 第四章-异步电机--电机和拖动基础第5版-张晓江、顾蝇谷主编-教辅.ppt
- 江苏专用2024高考英语二轮复习专题限时检测十七阅读理解A篇送分练二.doc
- 天津市静海区一中2025届高三生物上学期期末考试试题.doc
- 四川省仁寿第二中学2024_2025学年高二地理下学期质量检测期中试题含解析.doc
- 四川省仁寿第一中学校北校区2024_2025学年高二物理上学期第一次月考试题扫描版.doc
- 2024_2025学年新教材高中地理第5章人类面临的环境问题与可持续发展章末检测试卷五中图版必修第二册.docx
- 九年级化学上册4.3化石燃料的利用单元检测新版仁爱版.docx
- 四川省内江市2024_2025学年高一生物上学期期末考试试题含解析.doc
- 2024至2030年中国大中型客车制造行业市场供需与投资预测分析报告.docx
- 2024至2030年中国汽车热交换器市场前景及投资机会研究报告.docx
- 2024至2030年中国磁力应用设备行业深度调研及投资战略分析报告.docx
文档评论(0)