- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数数据据挖挖掘掘实实验验报报告告-综综合合实实验验2-分分类类与与预预测测的的综综合合实实验验
湖南财政经济学院学⽣实验报告
学院:信息技术与管学院
课程名称:数据分析与挖掘
教学班级:信息管与信息系统
姓名:XXXXX学号:XXXXX
实验报告
⼀、实验⽬的和要求:
1.实验⽬的
泰坦尼克号事故相信⼤家都知道,这次的实验任务就跟这次事故的数据集有关。
泰坦尼克号问题之背景,就是那个⼤家都熟悉的“JackandRose”的故事,豪华游艇沉没了,⼤家都惊恐逃⽣,可是救⽣艇的数
量有限,⽆法⼈⼈都有,副船长发话了“ladyandkidfirst!”,但最后哪些⼈获救了呢?我们收集到的训练和测试数据是⼀些乘
客的个⼈信息以及存活状况,要尝试根据它⽣成合适的模型并预测其他⼈的存活状况。这是⼀个⼆分类问题。
下表是泰坦尼克号船上⼈员数据,表中包含12个字段信息,其意义如下:
PassengerId=乘客ID
Pclass=乘客等级(1/2/等舱位)(属性代表船舱等级,1-⼀等舱,2-⼆等舱,-三等舱,从⼀定程度上反应了这个乘客经济情
况和社会地位。)
Name=乘客姓名
Sex=性别
Age=年龄
SibSp=堂兄弟/妹个数
Parch=⽗母与⼩孩个数
Ticket=船票信息(字母与数字具体代表什么信息,需要猜测分析判断)
Fare=票价
Cabin=客舱
Embarked=登船港⼝
Survived=乘客是否获救
可以看出该数据集共有12个变量,各变量说明如下。
(友情提⽰:这是竞赛组织⽅提供的原始数据集,⼩⼼处,有可能你在读⼊数据集时就会抓狂!)
请根据titanic_train.csv数据集,利⽤多种分类模型(⾄少三个)预测乘客是否获救与遇难,并⽐较各个模型的性能,并能在预测
时根据模型融合给出最佳预测结果。报告中要体现详细的分析过程和分析由,并截取相应的实验步骤与实验结果图。
2.实验要求
机器学习⼀般⼯作流程如下图所⽰。
1)分析问题性质,这是⼀个分类还是聚类问题,若是分类问题,分析属性集和⽬标类,选定可适⽤的算法有哪些?(也可根
据算法调整属性集中的属性类型,如连续变离散等,解决问题的⽅法不⽌⼀个。)
2)解数据和认识数据,完成数据的初步探索。
(1)缺失值处:针对age、Carbin和Emarked三个属性上的缺失值根据属性类型和数据解进⾏相应的缺失值处,给出
由;
(2)观察与统计乘客的各个属性与获救之间的关系。下⾯初步给出了5条可能存在的相关性,除此之外,同学们还可以列举其他
相应属性与获救之间的相关性分析。
A.乘客中获救⼈数与遇难⼈数⽐例;
B.乘客各个等级的分布状况以及与获救的关系;
C.遇难与获救⼈员年龄、性别的关系;
D.乘客各个登船⼝岸的⼈数分布以及与获救之间的关系;
E.堂兄弟/妹,孩⼦/⽗母有⼏⼈,对是否获救的影响。
)根据1)步和2)步对数据的观察及打算采取的分类算法,对属性进⾏处⽣成特征属性(⽣成适合模型算法需要的数据
表)。
可能包括的操作有:
(1)属性变换(如定性属性、定量属性间的变换)
(2)属性类型变换(如连续类型变分类类型、数据的规范化等)
()特征⽣成(根据现有属性导出新属性、分类类型转换为⼆元标志类型等)
(4)特征选择与主成分分析
4)构建分类模型,并进⾏模型的性能⽐较。
注意:没有绝对的机器学习算法优劣,也没有绝对的⾼性能的机器学习算法,只有在特定的场景、数据和特征下更合适的机器
学习算法。因此构建各个分类模型,重在分析其适应性。
5)模型融合。
模型融合的⼤意就是:当我们⼿头上有⼀堆在同⼀份数据集上训练得到的分类器(⽐如
C5.0,CR树,贝叶斯⽹络,SVM,神经⽹络等),我们让他们都分别去做判定,然后对结果做投票统计,取票数最多的结果为
最后结果。模型融合可以⽐较好地缓解训练过程中产⽣的过拟合问题,从⽽对于结果的准确度提升有⼀定的帮助。在单个模型
上也可以做融合,这就是Bagging和boosting技术。
(友情提⽰:这是kaggle⽐赛中的Titanic预测⽣存情况,⼤家可以⽹上查找相关的资料,借鉴前⼈的经验会让你的⼯作更有头
绪和轻松些!)
摘要
泰坦尼克号(RMSTitanic)是⼀艘奥林匹克级邮轮,于1912年4⽉处⼥航时遇上冰⼭沉没。泰坦尼克号由位于爱尔兰岛贝尔法
斯特的哈兰德与沃尔夫造船⼚兴建,是当时最⼤的客运轮船。在她的处⼥航中,泰坦尼克号从英国南安普敦出发,途经法国瑟
堡-奥克特维尔以及爱尔兰昆⼠敦,计划中的⽬的地为美国纽约,
文档评论(0)