决策树聚类神经网络回归基础概念.docxVIP

下载本文档

16
0
约5.81千字
约 9页
2021-08-25 发布于湖北
举报
版权申诉

决策树聚类神经网络回归基础概念.docx

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1　研究方法 1.1　聚类聚类分析提供由个别数据对象到数据对象所指派到簇的抽象,这些簇原型可以用作大量数据分析和数据处理技术的基础。利用聚类分析抽取学习样本,首先将数据集划分为K个不相交的“类” ,然后再从这K个类中的数据对象分别进行随机抽取,这样就可以最终获得聚类采样数据子集,按聚类结果抽取的样本更具有典型性和代表性 ,实用效果较好。聚类分析来选择一个神经元的备选子集,当聚类标准取的较小和删除标准取的较小时,所聚成的类的数目很多,这些类的中心是能够均匀地覆盖样本空间,使输入的样本均匀的覆盖在备选的样本空间中。在相关领域的监督分类中聚类方法也能有效地抽取学习样本。 K-Means 聚类执行快速样本聚类，使用k 均值分类法对观测量进行聚类。可完全使用系统默认值执行该命令，也可对聚类过程设置各种参数进行人为的干预。进行快速样本聚类首先要选择用于聚类分析的变量和类数。参与聚类分析的变量必须是数值型变量，且至少要有一个。为了清楚地表明各观测量最后聚到哪一类，还应该指定一个表明观测量特征的变量作为标识变量，例如编号、姓名之类的变量。聚类数必须大于等于2，但聚类数不能大于数据文件中的观测量数。如果选择了n 个数值型变量参与聚类分析，最后要求类数为k。那么可以由系统首先选择个观测量（也可以由用户指定）作为聚类的种子，n 个变量组成n 维空间。每个观测量在n 维空间中是个点。k 个事先指定的观测量就是k 个聚类中心点，也称为初始类中心。按照距这几个类中心的距离最小原则把观测量分派到各类中心所在的类中；形成第一次迭代形成的k 类。根据组成每一类的观测量计算各变量均值，每一类中的n 个均值在n 维空间中又形成k 个点，这就是第二次迭代的类中心，按照这种方法依次迭代下去，直到达到指定的迭代次数或中止迭代的判据要求时，迭代停止，聚类结束。 1.2　决策树决策树方法先根据训练集数据形成决策树，如果该树不能对所有对象给出正确的分类，那么选择剩余的一些对象加入到训练集数据中，重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点，每个分支是一个新的决策结点，或者是树的叶子。每个决策结点代表一个问题或决策，通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中，在每个结点都会遇到一个测试，对每个结点上问题的不同的测试输出导致不同的分支，最后会到达一个叶子结点，这个过程就是利用决策树进行分类的过程，利用若干个变量来判断所属的类别。从数据挖掘的角度来看,评价问题实质上属于分类预测问题。在数据挖掘分类方法中决策树学习算法较为典型,所建立的树型结构直观、易于理解,适合处理各种分类问题。决策树模型优势在于处理非线性数据和描述数据,能提取数据中隐藏的知识规则。将研究对象,在聚类分析结果中抽取学习样本,在学习样本的支持下,建立决策树模型对质量等级进行预测。决策树建立过程是不断将数据进行切分的过程,每次切分对应着一个节点,在 C5. 0算法中采用属性增益率最大作为节点,基于信息熵的方法递归形成决策树。下面以计算评价属性 A 为例计算信息增益率GainRatio( A ) , S 表示一组样本, pi 是任意样本属于 Bi的概率,用 Si /S表示。假定类别属性具有n个不同的值,定义 n个不同类 Bi (i = 1,… , n)。设 Si 是类 B中的样本数。 Info( S) 表示当前样本中的信息熵,计算如下设属性 A具有 n个不同值 { A , A2 ,… , An } , 利用 A将 S划分为 n个子集{ S1 , S2 ,… , Sn } ,其中 Sj 为 S中在 A中具有 Aj 的样本, Si j 是子集 Sj 中类Bi 样本数。Info( S ,A ) 表示利用属性 A划分 S中所需要信息熵,计算如下分裂信息 SplitInf o( A ) 是 S关于属性 A的各值的熵,用以消除具有大量属性值属性的偏差,计算如下决策树 C5. 0算法是在 C4. 5基础上采用了 boost-ing技术 ,主要思想是: 每个新模型的建立基于前面模型的结果,最后一个模型集中于正确分类前面模型未正确分类的那些实例,通常是通过为各个实例指定权重来完成的,对未正确分类的样本被更频繁的取样,使决策树模型在分类训练数据的能力上彼此补充。 2 模型的建立 2.1　k-means聚类本文依据渐进抽样原则,采用聚类分析中 K-means算法对原始数据进行聚类抽样。将每一条记录视为一个样本,在软件中进行数据抽样。为了保证评价模型的学习精度,学习样本的确定采用试验的方法,即根据建立的模型评价精度高低,来选择合适规模的学习样本。通过建立评价模型来检验评价模型的精度,满