- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.下表由雇员数据库的训练数据构成,数据已泛化。比如,年纪“3135表”示31到35的之
间。关于给定的行,count表示department,status,age和salary在该行上拥有给定值的元组数。status是类标号属性。
department
status
age
salary
count
sales
senior
31...
35
46K...
50K
30
sales
junior
26...
30
26K...
30K
40
sales
junior
31...
35
31K...
35K
40
systems
junior
21...
25
46K...
50K
20
systems
senior
31...
35
66K...
70K
5
systems
junior
26...
30
46K...
50K
3
systems
senior
41...
45
66K...
70K
3
marketing
senior
36...
40
46K...
50K
10
marketing
junior
31...
35
41K...
45K
4
secretary
senior
46...
50
36K...
40K
4
secretary
junior
26...
30
26K...
30K
6
1)怎样改正基本决议树算法,以便考虑每个广义数据元组(即每个行)的count。
Status分为2个部分:
Department分为4个部分:
Senior
合计52
Sales
合计110
Junior
合计113
Systems
合计31
Marketing
合计14
Secretary
合计10
Age分为6个部分:
Salary分为6各部分:
2125
合计20
26K30K
合计46
2630
合计49
31K35K
合计40
3135
合计79
36K40K
合计4
3640
合计10
41K45K
合计4
4145
合计3
46K50K
合计63
4650
合计4
66K70K
合计8
位
位
位
位
位
位
位
由以上的计算知按信息增益从大到小对属性摆列挨次为:
salary、age、department,所以定
salary作为第一层,以后剩下的数据以下:
department
status
age
salary
count
sales
senior
31...35
46K...50K
30
systems
junior
21...25
46K...50K
20
systems
junior
26...30
46K...50K
3
marketing
senior
36...40
46K...50K
10
由这个表可知
department和age的信息增益将都为
0。所以第二层能够为
age也能够为
department。
2)结构给定数据的决议树。
由上一小问的计算所结构的决议树以下:
Salary
26K:30K
66K:70K
Junior31K:35K
36K:40KSenior
41K:45K
46K:50K
Junior
SeniorJunior
Age
21:25
26:30
36:40
Junior
31:35
Junior
Senior
Senior
3)给定一个数据元组,它在属性department,age和salary上的值分别为“systems,”“26...30”和“46...50K。”该元组status的朴实贝叶斯分类结果是什么?
P(status=senior)=52/165=0.3152
P(status=junior)=113/65=0.6848
P(department=systems|status=senior)=8/52=0.1538
P(department=systems|status=junior)=23/113=0.2035
P(age=2630|status=senior)=1/52=0.0192
P(age=2630|status=junior)=49/113=0.4336
P(salary=46K50K|status=senior)=40/52=0.7692
P(salary=46K50K|status=junior)=23/113=0.2035
使用上边的概率,获得:
P(X|status=senior)=P(department=systems|status=senior)*P(age=2630|status=senior)*
P(salary=46K50K|status=senior)=0.0023
P(X|status=junior)=P(department=systems|status=junior)*P(age=2630|sta
您可能关注的文档
- 数学能力结构分析.docx
- 数学课堂中如何体现教师的教和学生的学.docx
- 数学选择题10种答题技巧.docx
- 数形结合思想例题分析.docx
- 数据仓库与数据挖掘复习提纲.docx
- 数据库第4章数据库性练习题.docx
- 数据库系统原理试卷.docx
- 数据库设计实验报告内容示例.docx
- 数据挖掘实验报告(参考).docx
- 数据结构Ch10习题.docx
- YC_T 303-2009 烟草商业企业卷烟物流统计指标体系.pdf
- YC_T 306-2009 烟草物流设备 条烟分拣设备.pdf
- YC_T 316-2009 烟用接装纸和烟用接装纸原纸中砷、铅、镉、铬、镍、汞的测定 电感耦合等离子体质谱法.pdf
- YC_T 33-1996_ 烟草及烟草制品 总氮的测定 克达尔法.pdf
- YC_T 384.1-2011 烟草企业安全生产标准化规范 第1部分:基础管理规范.pdf
- YC_T 392-2011 烟草机械 机械配置和设计文件代码编制方法.pdf
- YC_T 394.1-2011 烟草行业质量、环境、职业健康安全一体化管理体系 第1部分:基础和术语.pdf
- YC_T 394.3-2011 烟草行业质量、环境、职业健康安全一体化管理体系 第3部分:卷烟生产企业实施指南.pdf
- YC_T 401-2011 烟草商业企业省级公司卷烟物流管理信息系统功能规范.pdf
- YC_T 406-2011 烟用添加剂中马兜铃酸A的测定 高效液相色谱法.pdf
文档评论(0)