- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
华南理工大学数据挖掘第二章
第二章 数据预处理
为什么要预处理数据?
现实世界中的数据是脏的:不完整、声、不一致
不完整原因:
收集和分析面对的不同情况
人为/机器等原因
有噪声原因:
人为/机器输入的错误
数据转换的错误
不一致原因:
不同的数据源
没有高质量的数据,就没有高质量的挖掘结果!
数据预处理的主要任务
数据清理:通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性带来“清理”数据。
数据集成:涉及集成多个数据库,数据立方体或文件
数据变换:规范化和集聚
数据归约:得到数据集的简化表示,它小得多但是产生同样的结果
数据离散化:数据规约形式,对于从数值数据自动地产生概念分成是非常有用
描述性数据汇总
动机:更好的理解数据:中心趋势和离中趋势特征
数据离散特征:
(中心趋势)均值、中位数、众数、中列数
(离中趋势)四分位数、四分位数极??、方差
度量数据的离散程度:极差、四分位数、离群点和盒图
数据清洗
重要性:试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致
数据清理的任务:
填充缺失值:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值,使用最可能的值填充缺失值
噪声数据:
分箱:通过考察数据的紧邻来光滑有序数据的值(用箱均值光滑、用箱边界光滑、用箱中位数光滑)
等宽分箱:每个分箱之间的数据值区间一致
等深度分箱:每个分箱的数据量一致
回归:回归函数拟合数据来光滑数据
聚类:将类似的值组织成为群或“簇”
校正不一致数据:
清楚数据集成带来的冗余数据:
数据集成与变换
数据集成:合并多个数据源中的数据,存放在一个一致的数据存储中
数据变换:
??平滑:去掉数据中的噪音。这种技术包括分箱、聚类和回归。
?? 聚集:对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。通常,这一步用来为多粒度数据分析构造数据方。
?? 数据泛化:使用概念分层,用高层次概念替换低层次“原始”数据。例如,分类的属性,如street,可以泛化为较高层的概念,如city 或country。类似地,数值属性,如age,可以映射到较高层概念,如young, middle-age 和senior。
?? 规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。
?? 属性构造(或特征构造):可以构造新的属性并添加到属性集中,以帮助挖掘过程。
数据规范化方法:
最小-最大规范化:
小数定标规范化:
z-score规范化:
数据归约
重要性:复杂数据库分析需要很长时间
数据规约策略:
1. 数据方聚集:聚集操作用于数据方中的数据。
2. 维归约:可以检测并删除不相关、弱相关或冗余的属性或维。
3. 数据压缩:使用编码机制压缩数据集。
4. 数值压缩:用替代的、较小的数据表示替换或估计数据,如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、选样和使用直方图。
5. 离散化和概念分层产生:属性的原始值用区间值或较高层的概念替换。概念分层允许挖掘多个抽象层上的数据,是数据挖掘的一种强有力的工具。
直方图:
?? 等宽:在等宽的直方图中,每个桶的宽度区间是一个常数(如图3.10 中每个桶的宽度为$10)。
?? 等深(或等高):在等深的直方图中,桶这样创建,使得每个桶的频率粗略地为常数(即,每个桶大致包含相同个数的临近样本)。
?? V-最优:给定桶个数,如果我们考虑所有可能的直方图,V-最优直方图是具有最小偏差的直方图。直方图的偏差是每个桶代表的原数据的加权和,其中权等于桶中值的个数。
抽样:
?? 简单抽样:n 个样本,不回放(SRSWOR):由D 的N 个元组中抽取n 个样本(n N);其中, D中任何元组被抽取的概率均为1/N。即,所有元组是等可能的。
?? 简单抽样:n 个样本,回放(SRSWR):该方法类似于SRSWOR,不同在于当一个元组被抽取后,记录它,然后放回去。这样,一个元组被抽取后,它又被放回D,以便它可以再次被抽取。
?? 聚类抽样:如果D 中的元组被分组放入M 个互不相交的“聚类”,则可以得到聚类的m 个简单随机选样;这里,m M。例如,数据库中元组通常一次取一页,这样每页就可以视为一个聚类。例如,可以将SRSWOR 用于页,得到元组的聚类样本,由此得到数据的归约表示。
?? 分层抽样:如果D 被划分成互不相交的部分,称作“层”,则通过对每一层的简单随机选样就可以得到D 的分层选样。特别是当数据倾斜时,这可以帮助确保样本的代表性。例如,可以得到关于顾客数据的一个分层选样,其中分层对顾客的每个年龄组创建。这
您可能关注的文档
- 任务3_用规定画法画键连接、销连接.ppt
- 企业网站制作文案书.ppt
- 企业管理原理第二章2010秋.ppt
- 企业高级信息管理师考试理论考点(自编).doc
- 优秀主题班会申报材料.doc
- 优秀班支部材料.doc
- 优秀社会调查报告—周广琰.doc
- 优秀班集体建设.doc
- 优质愚公移山教案.doc
- 会计专业见习实习报告.doc
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
文档评论(0)