华南理工大学数据挖掘第二章.doc

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
华南理工大学数据挖掘第二章

第二章 数据预处理 为什么要预处理数据? 现实世界中的数据是脏的:不完整、声、不一致 不完整原因: 收集和分析面对的不同情况 人为/机器等原因 有噪声原因: 人为/机器输入的错误 数据转换的错误 不一致原因: 不同的数据源 没有高质量的数据,就没有高质量的挖掘结果! 数据预处理的主要任务 数据清理:通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性带来“清理”数据。 数据集成:涉及集成多个数据库,数据立方体或文件 数据变换:规范化和集聚 数据归约:得到数据集的简化表示,它小得多但是产生同样的结果 数据离散化:数据规约形式,对于从数值数据自动地产生概念分成是非常有用 描述性数据汇总 动机:更好的理解数据:中心趋势和离中趋势特征 数据离散特征: (中心趋势)均值、中位数、众数、中列数 (离中趋势)四分位数、四分位数极??、方差 度量数据的离散程度:极差、四分位数、离群点和盒图 数据清洗 重要性:试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致 数据清理的任务: 填充缺失值:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值,使用最可能的值填充缺失值 噪声数据: 分箱:通过考察数据的紧邻来光滑有序数据的值(用箱均值光滑、用箱边界光滑、用箱中位数光滑) 等宽分箱:每个分箱之间的数据值区间一致 等深度分箱:每个分箱的数据量一致 回归:回归函数拟合数据来光滑数据 聚类:将类似的值组织成为群或“簇” 校正不一致数据: 清楚数据集成带来的冗余数据: 数据集成与变换 数据集成:合并多个数据源中的数据,存放在一个一致的数据存储中 数据变换: ??平滑:去掉数据中的噪音。这种技术包括分箱、聚类和回归。 ?? 聚集:对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。通常,这一步用来为多粒度数据分析构造数据方。 ?? 数据泛化:使用概念分层,用高层次概念替换低层次“原始”数据。例如,分类的属性,如street,可以泛化为较高层的概念,如city 或country。类似地,数值属性,如age,可以映射到较高层概念,如young, middle-age 和senior。 ?? 规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 ?? 属性构造(或特征构造):可以构造新的属性并添加到属性集中,以帮助挖掘过程。 数据规范化方法: 最小-最大规范化: 小数定标规范化: z-score规范化: 数据归约 重要性:复杂数据库分析需要很长时间 数据规约策略: 1. 数据方聚集:聚集操作用于数据方中的数据。 2. 维归约:可以检测并删除不相关、弱相关或冗余的属性或维。 3. 数据压缩:使用编码机制压缩数据集。 4. 数值压缩:用替代的、较小的数据表示替换或估计数据,如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、选样和使用直方图。 5. 离散化和概念分层产生:属性的原始值用区间值或较高层的概念替换。概念分层允许挖掘多个抽象层上的数据,是数据挖掘的一种强有力的工具。 直方图: ?? 等宽:在等宽的直方图中,每个桶的宽度区间是一个常数(如图3.10 中每个桶的宽度为$10)。 ?? 等深(或等高):在等深的直方图中,桶这样创建,使得每个桶的频率粗略地为常数(即,每个桶大致包含相同个数的临近样本)。 ?? V-最优:给定桶个数,如果我们考虑所有可能的直方图,V-最优直方图是具有最小偏差的直方图。直方图的偏差是每个桶代表的原数据的加权和,其中权等于桶中值的个数。 抽样: ?? 简单抽样:n 个样本,不回放(SRSWOR):由D 的N 个元组中抽取n 个样本(n N);其中, D中任何元组被抽取的概率均为1/N。即,所有元组是等可能的。 ?? 简单抽样:n 个样本,回放(SRSWR):该方法类似于SRSWOR,不同在于当一个元组被抽取后,记录它,然后放回去。这样,一个元组被抽取后,它又被放回D,以便它可以再次被抽取。 ?? 聚类抽样:如果D 中的元组被分组放入M 个互不相交的“聚类”,则可以得到聚类的m 个简单随机选样;这里,m M。例如,数据库中元组通常一次取一页,这样每页就可以视为一个聚类。例如,可以将SRSWOR 用于页,得到元组的聚类样本,由此得到数据的归约表示。 ?? 分层抽样:如果D 被划分成互不相交的部分,称作“层”,则通过对每一层的简单随机选样就可以得到D 的分层选样。特别是当数据倾斜时,这可以帮助确保样本的代表性。例如,可以得到关于顾客数据的一个分层选样,其中分层对顾客的每个年龄组创建。这

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档