- 1、本文档共72页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
医学科研数据挖掘方法--数据预处理-2
数据预处理 (2)
(Data preprocess)
为什么需要对数据进行预处理?
滥用缩写词
数据输入错误
重复记录
缺失值
数据中的内嵌控制信息
不同的惯用语
拼写变化
不同的计量单位
过时的编码
……
数据预处理主要包括数据描述、数据清理 、数据集
成和变换、数据归约四个步骤。
数据描述:对于获得数据的总体印象至关重要。描
述性数据汇总技术可以用来识别数据的典型性质,
突显哪些数据值应当视为噪声或离群点。度量数据
的中心趋势和度量数据的离散程度。
数据清理:是指填充缺失值,光滑噪声并识别离群
点,纠正数据中的不一致。
数据集成:是指合并来自多个数据存储的数据和可
能需要转换成适于挖掘的形式。
数据归约:数据归约技术可以用来得到数据集的归
约表示,它接近于保持数据的完整性,但数据量比
原数据小得多。与非归约数据相比,在归约的数据
上进行挖掘,所需的时间和内存资源更少,挖掘更
有效,并产生相同或几乎相同的分析结果。
1. 数据描述
2. 数据清理
3. 数据集成
1. 数据描述
单个数据集的描述
多个数据集的描述
家系结构数据的描述
一个数据集可看成一个N 行M 列的矩
阵,N 表示观测记录数,M 表示观测
变量数。数据预处理无外乎从这两个
方面进行,从行的角度检查记录数与
观测对象的编号情况,从列的角度一
是检查每个变量的分布,发现异常值,
二是检查变量缺失情况。
数据中变量有效记录数的描述
数据集中常有一些变量值缺失,这是流行病学
研究不可避免的问题。一些变量值的缺失必然会
影响数据分析,如在做多元回归分析时,任何一
个自变量或应变量有缺失的记录都将不能进入分
析,放入方程中的变量越多,数据缺失的可能性
越大,参加分析的记录数就越少。在数据分析前,
了解数据集中一些关键变量缺失情况十分必要。
结果一 结果二
Variables Missing Report for Combination of these variables
dataset B1.LABG1 A A A A A A O
Non-missing Missing 1 1 2 2 3 3 B
A11 419 9 1 2 1 2 1 2 S
A12 419 9 0 0 1 1 0 0 1
A21 421 7 0 0 1 1 1 1 8
A22 421 7 1 1 0 0 0 0 1
A31 423 5 1 1 0 0 1 1 6
A32 423 5 1 1 1 1 0 0 3
1 1 1 1 1 1 409
数据集中连续变量的分布描述
对于一个数据,我们必须首先
知道在这个数据集中有多少
文档评论(0)