- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据挖掘课设要求
目标
课程设计是在数据挖掘过程中加强理论和方法的系统方法和实践方法。在“数据挖掘课程设计”中,提供了一些模拟的实际应用程序数据集,并计划了一些课程设计项目。
通过进行课程设计,学生将掌握以下技术:
通过数据库技术处理实际的应用程序数据;
具有基本监督学习方法的大数据挖掘步骤;
评估分类器的策略;
影响分类器性能的主要方面;
解决数据挖掘中实际应用问题的主要工具。
项目1:监督学习算法之间的比较
数据集
请参阅附属文件:adult.train,adult.test和adult.desctiption。
adult.train文件用于训练,adult.test用于测试,adult.desctiption用于描述数据中的属性。
数据缺少标为“?”的值
任务
(1) 数据预处理。将数据从文件迁移到oracle等数据库,然后通过数据库技术处理数据。删除缺少值的元组。
(2) 利用训练数据建立预测模型。基本的监督学习方法(例如朴素贝叶斯分类,ID3,C4.5,CART,BPANN)分别用于训练分类器。
(3) 不同分类器之间的准确性比较
项目2:调查噪声数据的影响
数据集
请参考项目1的数据。
任务
(1)数据预处理。不要删除缺少值的元组。而是在同一列中用适当的值
替换丢失的值,例如平均值,回归值或通过数据插补技术得出的其他值。
使用C4.5建立预测模型。
通过C4.5对两组数据之间有无值和有值缺失的分类器之间的精度比较。
项目3:模拟应用
字母识别应用简介
字符图像基于20种不同的字体,并且这20种字体中的每个字母都被随机扭曲以产生20,000个唯一刺激的文件。每个刺激转换为16个数字属性。
A/4兀4醐.4』)4A
bBJIbDbB月迎
starF?FF
XzZTXaXXayA
这些过程生成的字符图像的示例在图中提供。然后逐个像素扫描每个字符图像,以提取16个数字属性。这些属性表示像素分布的原始统计特征。为了实现紧凑性,然后将每个属性线性缩放到从0到15的整数值范围。最后一组值足以提供26个类的完美分离。也就是说,没有任何特征向量映射到一个以上的类。
属性(缩放到0-15范围之前)是:
(1) 最小矩形框中心的水平位置(从图像的左边缘开始计数),该矩形框的所有“开”像素都可以在框内绘制。
(2) 上方方框的垂直位置,从底部算起像素。
(3) 框的宽度,以像素为单位。
(4) 框的高度,以像素为单位。
(5) 字符图像中“开”像素的总数。
(6) 所有“在”像素相对于框中心的平均水平位置,并除以框的宽度。如果图像像字母L那样“左重”,则此功能的值为负。
(7) 所有“在”像素相对于框中心的平均垂直位置,并除以框的高度。
(8) 以上6中测得的水平像素距离的均方值。对于像素在水平方向上较宽分离的图像,此属性将具有较高的值,字母W或M就是这种情况。
(9) 以上7中测量的垂直像素距离的均方值。
(10) 每个“上”像素的水平和垂直距离的平均值,如上面6和7所述。对于从左下到右上的对角线,此属性具有正值;对于从左上到右下的对角线,此属性具有负值。
(11) 每个“on”像素的水平距离平方乘以垂直距离的平均值。这测量了水平方差与垂直位置的相关性。
(12) 垂直距离的平方的平均值乘以每个“on”像素的水平距离。这测量了垂直方差与水平位置的相关性。
(13) 从左侧进行系统扫描时遇到的平均边缘数量(“关闭”像素或图像边界右侧的“打开”像素)
(15) 在框内所有水平位置上从下到上对图像进行系统扫描时遇到的平均边缘数(“关闭”像素或图像边界上方的“打开”像素)。
(16) 在上面的15中测量的边缘水平位置的总和。
2.数据集
请参阅附属文件:letter-recognition.data和letter-recognition.desctiption。
letter-recognition.data文件用于训练和测试,adult.desctiption用于描述数据中的属性。
任务
(1) 数据预处理。将数据从文件迁移到oracle等数据库。
(2) 通过Hold-out方法进行数据分区,即将数据随机分为两部分:2/3作为训练集,1/3作为测试集。
(3) 在训练集上使用C4.5建立预测模型。
(4) 评估其在测试集上的准确性。
项目4:评估方法之间的比较
数据集
请参考项目3的数据。
任务
(1) 使用C4.5建立预测模型/分类器。
(2) 分别通过Hold-out方法(即项目3),随机抽样,10-CV,分层10-CV和自举法评估其准确性。
(3) 在不同评估方法下,C4.5分类器之间的准确性比较。
项目5:对修剪到过度拟合的调查
数据集
请参考项目3的数据。
任务
文档评论(0)