- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
纪浩然-如何对市场调研问卷的数据进行预处理
如何对市场调研问卷的数据进行预处理纪浩然学习导航通过学习本课程,你将能够:● 完成市场调研问卷的信度检验;● 剔除市场调研问卷中的废卷;● 做好市场调研问卷的数据管理和转换。?如何对市场调研问卷的数据进行预处理市场调研问卷数据的预处理是整个市场调研工作的重要环节,如果预处理做得不好,就会使有问题的问卷进入后面的数据分析环节,对最终结果产生严重影响。一、信度检验1.信度分析简介信度,即信任度,是指问卷数据的可信任程度。信度是保证问卷质量的重要手段,严谨的问卷分析通常会采用信度分析筛选部分数据。α值是信度分析中的一个重要指标,它代指0~1的某个数值,如果α值小于0.7,该批次问卷就应当剔除或是进行处理;如果大于0.9,则说明信度很高,可以用于数据分析;如果位于0.7~0.9,则要根据具体情况进行判定。如表1所示。?表1? 信度的判定表α 值意 义0.9信度非常好0.8信度可以接受0.7需要重大修订但是可以接受0.7放弃2.信度分析示例?操作过程下面介绍的是一个信度分析的案例,其操作过程为:首先打开信度分析文件,可以看到该文件的结构很简单,一共包含10个题目,问卷的份数是102份。然后进入SPSS的“分析”模块,找到“度量”下面的“可靠性分析”,将这十个题目都选进去。在接下来的统计量中,首先看平均值、方差和协方差等,为了消除这些变量的扰动,可以选择要或者不要这些相关的量,另外ANOVA(单音数方差分析)是分析两个变量之间有无关系的重要指标,一般选择要,但在这里可以不要,其他一些生僻的量值一般不要。描述性在多数情况下需要保留,因为模型的输出结果会有一些描述,因此应当选中项、度量和描述性,然后“确定”,这时SPSS输出的结果就会比较清楚。?结果解读案例处理汇总后,SPSS输出的结果如图1所示。?图1? 信度分析结果?由图1可知,案例中调查问卷的有效数据是102,已排除数是0,说明数据都是有效的,在这里如果某个问卷有缺失值,就会被模型自动删除,然后显示出已排除的问卷数。在信度分析中,可以看到Alpha值是0.881,根据前文的判定标准,这一数值接近0.9,可以通过。在图右下方部分有均值、方差、相关性等多个项目,这主要看最后的“项已删除的Alpha值”,该项目表示的是删除相应项目后整个问卷数据信度的变动情况,可以看出题目1、题目2和题目6对应的数值高于0.881,表明删除这三个题目后整个问卷的Alpha值会上升,为了确保整个调查的严谨性,应当将这三个题目删除。?二、剔除废卷删除废卷大致有三种方法:根据缺失值剔除、根据重复选项剔除、根据逻辑关系剔除。1.根据缺失值剔除?缺失值的成因在市场调查中,即使有非常严格的质量控制,在问卷回收后仍然会出现缺项、漏项,这种情况在涉及敏感性问题的调查中尤其突出,缺失值的占比甚至会达到10%以上。之所以会出现这种现象,主要有以下原因:一是受访者对于疾病、收入等隐私问题选择跳过不答,二是受访者由于粗心大意而漏掉某些题目等。?缺失值的处理在处理缺失值时,有些人会选择在SPSS或Excel中将其所在的行直接删除。事实上,不能简单地删除缺失值所在的行,否则会影响整个问卷的质量。这是因为在该行中除了缺失的数据以外,其他数据仍旧是有效的,包含许多有用信息,将其全部删除就等于损失了这部分信息。在实际操作中,缺失值的处理主要有以下方式,如图2所示。?图2? 缺失值的处理方式?缺失值的处理——忽略。在处理缺失值时,可以在“选项”中直接忽略,这样可以保留其他数据进行之后的运算、建模和输出。缺失值的处理——填充。填充,指的是在缺失值的位置用各种技术手段和模型将值回填进去,比如用中间某段数据的平均值填充等。一般来说,主要有两种填充方式:第一,在“转换”模块中,替换缺失值;第二,在“分析”模块中,采用EM模型或者回归模型进行填充,这两种模型都可以有效地完成填充,相对来说EM模型更高效一些。?缺失值处理示例填充值的回归。首先打开该文件,如图3所示,发现其中有三列数据,分别是体重组、年龄和胆固醇。可以看到,胆固醇的某些数据中有一些点,这就是SPSS设定的缺失值。对此第一种处理缺失值的方式是做一个回归,操作过程为:进入SPSS的“回归”,然后选择“线性回归”界面。这时需要分析的目标就是应变量,其他对应变量有影响的因素就是自变量,如示例中的胆固醇是应变量,而体重和年龄则是自变量,表示随着体重的上升和年龄的增长,总体来说胆固醇水平也会上升。因此要将胆固醇选为应变量,将体重和年龄选为自变量,其他因素选择默认,然后点击“确定”,系统就会输出相应的结果,如图3上方的表格所示。?图3? 缺失值的填充示例?在输出结果中可以看到有一个“sig.”值,也就是前文讲过的检验P值,即检验概率值,如前所述,这一概率值应当与0.05(5%)进行对比,如果小于0.05,
文档评论(0)