基于ID3决策树的数据分析毕业设计开题报告文档.doc

基于ID3决策树的数据分析毕业设计开题报告文档.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于ID3决策树的数据分析毕业设计开题报告文档

毕业设计(论文)开题报告 计算机科学与工程学院 计算机科学与技术专业 设计(论文)题目 基于ID3决策树的数据分析 学 生 姓 名 学号 指 导 教 师 顾 问 教 师 教研室 主任 教学院长(教学系主任) 2014年 3月19日 论文题目 基于ID3决策树的数据分析 一、选题背景和意义: 近年来,信息社会中丰富的数据带来了对强有力的数据分析工具的需求,快速增长的海量数据集存放在大型的数据库中,激增的数据背后隐藏着许多重要的信息,而目前的数据库技术虽然可以高效地实现数据的查询、统计等功能,但却无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展 趋势。以至于出现了“数据丰富,但信息贫乏”的现象。在这种需求下,数据挖掘技术应运而生。 数据挖掘就是从数据库中挖掘出数据间潜在的模式,再根据这些模式找出相应的规律。它是解决信息技术在发展中一方面拥有大量数据 而另一方面有用信息却很贫乏这种不正常现象的综合解决方案。数据挖掘技术 通过使用计算机来对数据库中大量数据进行快速、有效的分析和处理,从中提 取有用信息和知识,并以一种形式化、可以理解的方式表达,以便用于决策。 目前对数据挖掘的研究主要集中在关联规则挖掘、聚类、分类、序列模式 发现、异常和趋势发现等方面,也就是说数据挖掘可以产生五种基本类型的信息:关联信息、聚类信息、分类信息、偏差信息、预测信息。其中由于分类挖 掘在商业等领域中的广泛应用使它成为数据挖掘中最活跃的研究方向。分类的目的是提出一个分类函数或分类模型(分类器),该模型能把数据库中的数据映射到给定类别中的某一个。由于分类技术能够对各个行业提供良好的决策支持, 在这些不同的行业有着多种不同领域方法的分类算法,例如决策树方法、神经网络方法、统计学方法等。在这些算法中,决策树方法最容易理解,应用领域也特别广泛。 决策树学习是一种逼近离散值目标函数的方法,这种方法将从一组训练数据中学习到的函数表示为一棵决策树,它是一种常用于预测模型的算法,通过将大量数据有目的的分类,从中找到一些具有价值的、潜在的信息。决策树方法以其速度快、精度高、生成的模式简单等优点,在数据挖掘中受到许多研究者和软件公司的关注。而分类技术对整个市场的控制、公司的运营和个人的投资都有着良好的决策辅助作用,所以基于决策树分类算法的研究有着 很高的应用价值。一般情况下,决策树分类器具有良好的准确率。决策树归纳 算法已经成功地应用于许多应用领域的分类,如医疗诊断、天气预报、金融分析,顾客分类、身份识别等。 课题关键问题及难点: 1.连续属性值问题 由于ID3算法是根据离散属性值来计算各个属性的信息熵,所以在处理属性取值为连续值的属性时,往往需要将连续属性做离散化处理,即通过将属性值的定义域划分为非重叠区域,来处理具有连续属性值的样本数据。最常见的划分方法为等宽间距法和等频区间法。假设实例集S中连续属性A的最大值和最小值分别为MAX和MIN。等宽区间法就是将这一连续区间[MIN,MAX]分为N个小区间,每个区间内包含的样本实例大致相同。虽然等分法容易实现,但是它忽略了样本集中的概念类等关键信息,因此,有时候并不能产生合理的划分区间。 在处理连续属性的问题上,C4.5算法采用的离散化方法是:对所有样本在该属性上的取值从小到大进行排序,找出最小值MIN和最大值MAX;选择取值相邻但所属类别不同的两个样本为一组,共N组,计算其算术平均值Ai,其中i=1,2,…N;分别计算把[MIN,Ai]和(Ai,MAX]( i=1,2,…N)作为属性划分区间时的信息增益并进行比较;选择信息增益值最大的Ai作为对该属性离散化的断点,即将属性按照区间[MIN,Ai]和(Ai,MAX]进行划分。 2.属性值空缺的问题 在我们所搜集得到的数据集中经常出现部分样本的个别缺失的情况,这种情况会对ID3算法造成一定的干扰,但是只要属性缺失的样本没有超过一定比例,在原有样本集上进行划分依然是可能的。 解决属性缺失问题最常见的方法是用最可能的值对缺失的值进行填充,但有时这种方法不够精确。C4.5算法采用了基于概率分布的填充法来为未知属性的每个可能值赋予一个概率,而不是简单的赋予最常见的值。这个概率的分配是基于未知属性的概率分布与已有属性样本具有相同的概率分配。例如,给定一个布尔属性A,如果结点n包含7个已知A=1和3个A=0的样例,那么A=1的概率是0.7,A=0的概率是0.3.于是实例X的70%被分配到A=

文档评论(0)

seunk + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档