2-7-04-05-02-03数据分类与预测课件.pptx

2-7-04-05-02-03数据分类与预测课件.pptx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据技术创新应用冷链物流技术与管理资源库山东交通职业学院主讲教师:李海民

大数据概述01大数据采集和预处理02大数据存储与管理03大数据捕捉04大数据分析与计算05大数据可视化06大数据应用07目录Contents

05大数据分析与计算1.大数据分析2.大数据挖掘3.大数据处理系统

5.2大数据挖掘01数据关联分析02数据聚类分析03数据分类与预测

5.2.3数据分类与预测分类(CategorizationorClassification)是一种重要的数据分析形式,是提取刻画重要数据类的模型,也是机器学习和数据挖掘领域一套用于分类问题的方法。该分类方法是有监督学习类型,即:给定一个数据集,所有实例都由一组属性来描述,每个实例仅属于一个类别,在给定数据集上运行可以学习得到一个从属性值到类别的映射,进而可以使用该映射对新的未知实例进行分类。这种映射又称为分类器或模型。

5.2.3数据分类与预测简单而言,分类就是按照某种标准给对象贴标识,再根据标识来区分归类。最早-些数据分类算法只能用于处理标识类别数据,如今已经扩展到支持数值、符号乃至混合型的数据类型。数据分类算法较多,包括常用的决策树分类算法、基于概率统计思想的朴素贝叶斯分类算法(NativeBayesianClasifier)、具有统计学习理论的支持向量机(SVM)的分类器、神经网络法、k-近邻法(k-nearestneighbor,kNN)、模糊分类法,以及通过组建一组学习器进行集成学习的Adaboost算法等。

5.2.3数据分类与预测根节点。第一个需要判断的条件,往往也是最具有特征的那个条件,我们称为根节点。中间节点。那个矩形总是要往下分,并不是最终的结果,它叫做中间节点(或内部节点)。边。那些带有文字的线段(一般使用有箭头的有向线段),线的一端连的是中间节点、另一端连的是另一个中间节点或叶节点,然后线段上还有文字,它叫做边。叶节点。最后的结果不再往下了,这一类东西在决策树里叫做叶节点。决策树的构成

决策树是目前应用最为广泛的归纳推理算法之一,在数据挖掘中受到广泛关注。决策树算法的基本思想如下:(1)树从代表训练样本的单个节点开始。(2)如果样本都在同一个类,则该节点成为树叶,并用该类标记;否则,选择最有分类能力的属性作为决策树的当前节点。(3)根据当前决策节点属性取值的不同,将训练样本数据集分为若干子集,每个取值形成一个分枝,有几个取值形成几个分枝。均针对上一步得到的一个子集,重复进行先前步骤,递归形成每个划分样本上的决策树。一旦一个属性出现在一个节点上,就不必在该节点的任何后代考虑它。决策树算法5.2.3数据分类与预测

(4)递归划分步骤仅当下列条件之一成立时停止:给定节点的所有样本属于同一类。没有剩余属性可以用来进一步划分样本。在这种情况下,使用多数表决,将给定的节点转换成树叶,并以样本中元组个数最多的类别作为类别标记,同时也可以存放该节点样本的类别分布。如果某一分枝没有满足该分枝中已有分类的样本,则以样本的多数类创建一个树叶。决策树算法5.2.3数据分类与预测

收集数据:可以使用任何方法。准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。分析数据:可以使用任何方法,构造树完成后,我们应该检查图形是否符合预期。训练算法:构造树的数据结构。测试算法:使用经验树计算错误率。使用算法:此步骤可以适用于任何机器学习算法,而使用决策树可以更好地理解数据的内在含义。决策树的一般流程5.2.3数据分类与预测

分类可以用于预测,预测的目的是从历史数据自动推导出给定数据的趋势描述,并对未来的数据进行预测。统计学中常用的方法是回归。分类的输出是离散的类别值,而预测的输出是连续的数值。数据预测最长见的应用是根据用户对商品的评分向用户推荐新商品。数据预测5.2.3数据分类与预测

THANKS

您可能关注的文档

文档评论(0)

vermonth155-2娟 + 关注
实名认证
内容提供者

专注ppt课件

版权声明书
用户编号:8046135067000064

1亿VIP精品文档

相关文档