数据挖掘作业.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.下表由雇员数据库的训练数据构成,数据已泛化。比如,年纪“3135表”示31到35的之 间。关于给定的行,count表示department,status,age和salary在该行上拥有给定值的元组数。status是类标号属性。 department status age salary count sales senior 31... 35 46K... 50K 30 sales junior 26... 30 26K... 30K 40 sales junior 31... 35 31K... 35K 40 systems junior 21... 25 46K... 50K 20 systems senior 31... 35 66K... 70K 5 systems junior 26... 30 46K... 50K 3 systems senior 41... 45 66K... 70K 3 marketing senior 36... 40 46K... 50K 10 marketing junior 31... 35 41K... 45K 4 secretary senior 46... 50 36K... 40K 4 secretary junior 26... 30 26K... 30K 6 1)怎样改正基本决议树算法,以便考虑每个广义数据元组(即每个行)的count。 Status分为2个部分: Department分为4个部分: Senior 合计52 Sales 合计110 Junior 合计113 Systems 合计31 Marketing 合计14 Secretary 合计10 Age分为6个部分: Salary分为6各部分: 2125 合计20 26K30K 合计46 2630 合计49 31K35K 合计40 3135 合计79 36K40K 合计4 3640 合计10 41K45K 合计4 4145 合计3 46K50K 合计63 4650 合计4 66K70K 合计8 位 位 位 位 位 位 位 由以上的计算知按信息增益从大到小对属性摆列挨次为: salary、age、department,所以定 salary作为第一层,以后剩下的数据以下: department status age salary count sales senior 31...35 46K...50K 30 systems junior 21...25 46K...50K 20 systems junior 26...30 46K...50K 3 marketing senior 36...40 46K...50K 10 由这个表可知 department和age的信息增益将都为 0。所以第二层能够为 age也能够为 department。 2)结构给定数据的决议树。 由上一小问的计算所结构的决议树以下: Salary 26K:30K 66K:70K Junior31K:35K 36K:40KSenior 41K:45K 46K:50K Junior SeniorJunior Age 21:25 26:30 36:40 Junior 31:35 Junior Senior Senior 3)给定一个数据元组,它在属性department,age和salary上的值分别为“systems,”“26...30”和“46...50K。”该元组status的朴实贝叶斯分类结果是什么? P(status=senior)=52/165=0.3152 P(status=junior)=113/65=0.6848 P(department=systems|status=senior)=8/52=0.1538 P(department=systems|status=junior)=23/113=0.2035 P(age=2630|status=senior)=1/52=0.0192 P(age=2630|status=junior)=49/113=0.4336 P(salary=46K50K|status=senior)=40/52=0.7692 P(salary=46K50K|status=junior)=23/113=0.2035 使用上边的概率,获得: P(X|status=senior)=P(department=systems|status=senior)*P(age=2630|status=senior)* P(salary=46K50K|status=senior)=0.0023 P(X|status=junior)=P(department=systems|status=junior)*P(age=2630|sta

文档评论(0)

198****3683 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档