数据挖掘实验报告-综合实验2-分类与预测的综合实验.pdfVIP

数据挖掘实验报告-综合实验2-分类与预测的综合实验.pdf

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
报告概述本报告针对数据挖掘实验“数据挖掘实验报告综合实验2分类与预测的综合实验”进行了详细描述,主要研究了如何通过数值方法对给定的数据进行处理并得出相应的结论实验目标本次实验的主要目的是为了理解分类与预测的组合方式,并预测未知事件的可能性通过对泰坦尼克号数据集的分析,我们发现不同种类的人口比例存在显著差异,且不同等级的乘客有不同的生存率这些研究结果为基于数据的决策提供了一种理论支持实验步骤首先,我们通过数据处理工具对泰坦尼克号数据集进行了清洗和标准化操作接

数数据据挖挖掘掘实实验验报报告告-综综合合实实验验2-分分类类与与预预测测的的综综合合实实验验

湖南财政经济学院学⽣实验报告

学院:信息技术与管学院

课程名称:数据分析与挖掘

教学班级:信息管与信息系统

姓名:XXXXX学号:XXXXX

实验报告

⼀、实验⽬的和要求:

1.实验⽬的

泰坦尼克号事故相信⼤家都知道,这次的实验任务就跟这次事故的数据集有关。

泰坦尼克号问题之背景,就是那个⼤家都熟悉的“JackandRose”的故事,豪华游艇沉没了,⼤家都惊恐逃⽣,可是救⽣艇的数

量有限,⽆法⼈⼈都有,副船长发话了“ladyandkidfirst!”,但最后哪些⼈获救了呢?我们收集到的训练和测试数据是⼀些乘

客的个⼈信息以及存活状况,要尝试根据它⽣成合适的模型并预测其他⼈的存活状况。这是⼀个⼆分类问题。

下表是泰坦尼克号船上⼈员数据,表中包含12个字段信息,其意义如下:

PassengerId=乘客ID

Pclass=乘客等级(1/2/等舱位)(属性代表船舱等级,1-⼀等舱,2-⼆等舱,-三等舱,从⼀定程度上反应了这个乘客经济情

况和社会地位。)

Name=乘客姓名

Sex=性别

Age=年龄

SibSp=堂兄弟/妹个数

Parch=⽗母与⼩孩个数

Ticket=船票信息(字母与数字具体代表什么信息,需要猜测分析判断)

Fare=票价

Cabin=客舱

Embarked=登船港⼝

Survived=乘客是否获救

可以看出该数据集共有12个变量,各变量说明如下。

(友情提⽰:这是竞赛组织⽅提供的原始数据集,⼩⼼处,有可能你在读⼊数据集时就会抓狂!)

请根据titanic_train.csv数据集,利⽤多种分类模型(⾄少三个)预测乘客是否获救与遇难,并⽐较各个模型的性能,并能在预测

时根据模型融合给出最佳预测结果。报告中要体现详细的分析过程和分析由,并截取相应的实验步骤与实验结果图。

2.实验要求

机器学习⼀般⼯作流程如下图所⽰。

1)分析问题性质,这是⼀个分类还是聚类问题,若是分类问题,分析属性集和⽬标类,选定可适⽤的算法有哪些?(也可根

据算法调整属性集中的属性类型,如连续变离散等,解决问题的⽅法不⽌⼀个。)

2)解数据和认识数据,完成数据的初步探索。

(1)缺失值处:针对age、Carbin和Emarked三个属性上的缺失值根据属性类型和数据解进⾏相应的缺失值处,给出

由;

(2)观察与统计乘客的各个属性与获救之间的关系。下⾯初步给出了5条可能存在的相关性,除此之外,同学们还可以列举其他

相应属性与获救之间的相关性分析。

A.乘客中获救⼈数与遇难⼈数⽐例;

B.乘客各个等级的分布状况以及与获救的关系;

C.遇难与获救⼈员年龄、性别的关系;

D.乘客各个登船⼝岸的⼈数分布以及与获救之间的关系;

E.堂兄弟/妹,孩⼦/⽗母有⼏⼈,对是否获救的影响。

)根据1)步和2)步对数据的观察及打算采取的分类算法,对属性进⾏处⽣成特征属性(⽣成适合模型算法需要的数据

表)。

可能包括的操作有:

(1)属性变换(如定性属性、定量属性间的变换)

(2)属性类型变换(如连续类型变分类类型、数据的规范化等)

()特征⽣成(根据现有属性导出新属性、分类类型转换为⼆元标志类型等)

(4)特征选择与主成分分析

4)构建分类模型,并进⾏模型的性能⽐较。

注意:没有绝对的机器学习算法优劣,也没有绝对的⾼性能的机器学习算法,只有在特定的场景、数据和特征下更合适的机器

学习算法。因此构建各个分类模型,重在分析其适应性。

5)模型融合。

模型融合的⼤意就是:当我们⼿头上有⼀堆在同⼀份数据集上训练得到的分类器(⽐如

C5.0,CR树,贝叶斯⽹络,SVM,神经⽹络等),我们让他们都分别去做判定,然后对结果做投票统计,取票数最多的结果为

最后结果。模型融合可以⽐较好地缓解训练过程中产⽣的过拟合问题,从⽽对于结果的准确度提升有⼀定的帮助。在单个模型

上也可以做融合,这就是Bagging和boosting技术。

(友情提⽰:这是kaggle⽐赛中的Titanic预测⽣存情况,⼤家可以⽹上查找相关的资料,借鉴前⼈的经验会让你的⼯作更有头

绪和轻松些!)

摘要

泰坦尼克号(RMSTitanic)是⼀艘奥林匹克级邮轮,于1912年4⽉处⼥航时遇上冰⼭沉没。泰坦尼克号由位于爱尔兰岛贝尔法

斯特的哈兰德与沃尔夫造船⼚兴建,是当时最⼤的客运轮船。在她的处⼥航中,泰坦尼克号从英国南安普敦出发,途经法国瑟

堡-奥克特维尔以及爱尔兰昆⼠敦,计划中的⽬的地为美国纽约,

文档评论(0)

131****2653 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档