- 1、本文档共71页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
缺失数据在心理与教育测验的研究中普遍存在。缺失数据会导致样本量减少,
影响数据分析,影响到参数估计。插补法是处理缺失数据的一种基础并且非常受
欢迎的方法。但是,常用的统计学插补法往往存在精度差、不稳定等问题。为解
决传统插补方法存在的问题,机器学习插补法发展了起来。机器学习插补法因为
其强大的数据信息挖掘能力在各个行业得到广泛的应用。在IRT下,机器学习插
补方法在0、1模型被证明是优越的,相比传统的统计学插补法,机器学习插补
方法具有良好的参数估计返真性。但是,目前机器学习插补方法的性能仍未在心
理与教育测验中更为常见的多级记分下得到验证。本研究以等级反应模型模拟数
据及实证数据为基础,生成两种缺失机制(随机缺失,非随机缺失)的缺失数据。
分别考察不同被试量(4,8,12),不同缺失比例(10%,20%,30%,40%),不同缺失项
目数量(4,8,12)条件下五种缺失值插补方法对项目参数及被试特质参数估计返真
性的影响。五种插补方法包括:均值插补法(ME)、EM插补法(EM)、k-NN插补
法(k-NN)、随机森林插补法(RF)、分类回归树插补法(CART)。研究结果如下:(1)
在固定缺失项目数量,不同缺失机制,不同被试量,不同缺失比例条件下,RF和
CART两种方法性能接近,参数估计返真性上表现出良好的精度及稳定性,优于
其他三种方法。(2)在固定被试量,不同缺失项目数量,不同缺失机制,不同缺失
比例条件下,RF和CART两种方法仍表现最好,两种方法性能接近,具有良好
的精度和稳健性。这些结果表明,RF和CART相比于其它三种方法更适用于多
级记分数据的缺失插补。
关键词:缺失值插补;机器学习;等级反应模型;参数估计
I
目录
摘要I
ABSTRACTIII
目录V
引言1
1文献综述3
1.1缺失数据概述3
1.1.1缺失数据含义3
1.1.2数据缺失机制3
1.1.3传统缺失值插补方法4
1.1.4机器学习插补方法5
1.2项目反应理论概述8
1.2.1项目反应理论模型8
1.2.2项目反应理论参数估计方法10
2问题提出13
2.1以往研究的不足13
2.2本研究的思路14
3模拟研究与实证研究15
3.1研究一:随机缺失下的参数估计返真性比较15
3.1.1研究目的15
3.1.2研究设计15
3.1.3研究过程15
3.1.4研究结果18
3.2研究二:非随机缺失下的参数估计返真性比较24
3.2.1研究目的24
3.2.2研究设计24
3.2.3研究过程24
3.2.4研究结果26
3.3研究三:不同缺失项目数量下的参数估计返真性比较32
3.3.1研究目的32
3.3.2研究设计32
3.3.3研究过程32
3.3.4研究结果34
3.4研究四:实证研究46
3.4.1研究目的46
3.4.2研究设计46
3.4.3研究过程47
V
3.4.4研究结果48
4总结61
4.1结果讨论61
文档评论(0)