华南理工大学数据挖掘第二章.doc

下载文档

7
0
约2.47千字
约 3页
2018-04-17 发布于河南
举报
版权申诉
保障服务

华南理工大学数据挖掘第二章.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

华南理工大学数据挖掘第二章

第二章数据预处理为什么要预处理数据? 现实世界中的数据是脏的：不完整、声、不一致不完整原因：收集和分析面对的不同情况人为/机器等原因有噪声原因：人为/机器输入的错误数据转换的错误不一致原因：不同的数据源没有高质量的数据，就没有高质量的挖掘结果! 数据预处理的主要任务数据清理：通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性带来“清理”数据。数据集成：涉及集成多个数据库，数据立方体或文件数据变换：规范化和集聚数据归约：得到数据集的简化表示，它小得多但是产生同样的结果数据离散化：数据规约形式，对于从数值数据自动地产生概念分成是非常有用描述性数据汇总动机：更好的理解数据：中心趋势和离中趋势特征数据离散特征：（中心趋势）均值、中位数、众数、中列数（离中趋势）四分位数、四分位数极??、方差度量数据的离散程度：极差、四分位数、离群点和盒图数据清洗重要性：试图填充缺失的值，光滑噪声并识别离群点，并纠正数据中的不一致数据清理的任务：填充缺失值：忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值，使用最可能的值填充缺失值噪声数据：分箱：通过考察数据的紧邻来光滑有序数据的值（用箱均值光滑、用箱边界光滑、用箱中位数光滑）等宽分箱：每个分箱之间的数据值区间一致等深度分箱：每个分箱的数据量一致回归：回归函数拟合数据来光滑数据聚类：将类似的值组织成为群或“簇” 校正不一致数据：清楚数据集成带来的冗余数据：数据集成与变换数据集成：合并多个数据源中的数据，存放在一个一致的数据存储中数据变换： ??平滑：去掉数据中的噪音。这种技术包括分箱、聚类和回归。 ?? 聚集：对数据进行汇总和聚集。例如，可以聚集日销售数据，计算月和年销售额。通常，这一步用来为多粒度数据分析构造数据方。 ?? 数据泛化：使用概念分层，用高层次概念替换低层次“原始”数据。例如，分类的属性，如street，可以泛化为较高层的概念，如city 或country。类似地，数值属性，如age，可以映射到较高层概念，如young, middle-age 和senior。 ?? 规范化：将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0 到1.0 或0.0 到1.0。 ?? 属性构造（或特征构造）：可以构造新的属性并添加到属性集中，以帮助挖掘过程。数据规范化方法：最小-最大规范化：小数定标规范化： z-score规范化：数据归约重要性：复杂数据库分析需要很长时间数据规约策略： 1. 数据方聚集：聚集操作用于数据方中的数据。 2. 维归约：可以检测并删除不相关、弱相关或冗余的属性或维。 3. 数据压缩：使用编码机制压缩数据集。 4. 数值压缩：用替代的、较小的数据表示替换或估计数据，如参数模型（只需要存放模型参数，而不是实际数据）或非参数方法，如聚类、选样和使用直方图。 5. 离散化和概念分层产生：属性的原始值用区间值或较高层的概念替换。概念分层允许挖掘多个抽象层上的数据，是数据挖掘的一种强有力的工具。直方图： ?? 等宽：在等宽的直方图中，每个桶的宽度区间是一个常数（如图3.10 中每个桶的宽度为$10）。 ?? 等深（或等高）：在等深的直方图中，桶这样创建，使得每个桶的频率粗略地为常数（即，每个桶大致包含相同个数的临近样本）。 ?? V-最优：给定桶个数，如果我们考虑所有可能的直方图，V-最优直方图是具有最小偏差的直方图。直方图的偏差是每个桶代表的原数据的加权和，其中权等于桶中值的个数。抽样： ?? 简单抽样：n 个样本，不回放(SRSWOR)：由D 的N 个元组中抽取n 个样本（n N）；其中， D中任何元组被抽取的概率均为1/N。即，所有元组是等可能的。 ?? 简单抽样：n 个样本，回放(SRSWR)：该方法类似于SRSWOR，不同在于当一个元组被抽取后，记录它，然后放回去。这样，一个元组被抽取后，它又被放回D，以便它可以再次被抽取。 ?? 聚类抽样：如果D 中的元组被分组放入M 个互不相交的“聚类”，则可以得到聚类的m 个简单随机选样；这里，m M。例如，数据库中元组通常一次取一页，这样每页就可以视为一个聚类。例如，可以将SRSWOR 用于页，得到元组的聚类样本，由此得到数据的归约表示。 ?? 分层抽样：如果D 被划分成互不相交的部分，称作“层”，则通过对每一层的简单随机选样就可以得到D 的分层选样。特别是当数据倾斜时，这可以帮助确保样本的代表性。例如，可以得到关于顾客数据的一个分层选样，其中分层对顾客的每个年龄组创建。这