- 1、本文档共71页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
孤立点 孤立点的特点是与数据集中的其它大部分数据对象差异非常大 * 缺失值 缺失值的原因 信息未收集 (例, 顾客拒绝提供自己的年龄和体重) 属性没有应用到所有案例中 (例, 年收入属性不适用于儿童) 处理缺失值 消除数据对象 估计缺失值 分析时忽略掉缺失值 用可能值替换 (根据概率确定权重) * 重复数据 数据集可能包含重复或几乎重复的对象 从异构数据源中合并数据时的主要问题 例如: 同一人拥有多个email信箱 数据清洗 处理有重复数据的问题 * 精度、偏倚和准确率 精度:(同一个量的)重复测量值之间的接近程度 偏倚:测量值与被测量之间的系统的变差 准确率:被测量的测量值与实际值之间的接近度 * 数据预处理 聚集 抽样 维规约 特征子集选择 特征创建 离散化和二元化 属性变换 * 聚集 将两个或更多的属性 (或对象) 合并为一个属性 (或对象) 目的: 数据规约 减少属性或对象的数量 改变辖域 城市聚集到地区, 州, 国家等 更 “稳定” 的数据 聚集数据有较小的变异性 缺点: 可能丢失有趣的细节 如最高销售额 * 聚集 澳大利亚的降水变化 月均降水的标准差 年均降水的标准差 * 抽样 抽样是选择数据的主要技术 常用于数据的事先调查和最终的数据分析 获得感兴趣的整个数据集的成本太高、太费时间 处理整个数据集的成本太高、太费时间 有效抽样的主要原理如下: 如果样本有代表性, 使用样本与使用整个数据集的效果几乎一样 一个样本是有代表性的, 如果它近似地具有与原数据集相同的(感兴趣的) 性质 * 抽样的方法 简单随机抽样 选取任何特定项的概率相等 无放回抽样 随着每个项被抽中, 它被从构成总体的所有对象集中删除 有放回抽样 对象被选中时不从总体中删除 在有放回抽样中,相同的对象可能被多次抽出 分层抽样 将数据划分为几个部分; 然后从每个部分中随机抽取样本 * 样本容量 8000 points 2000 Points 500 Points * 样本大小 需要多大的样本数才能从10组中的每一组得到至少一个代表对象. * 维灾难 随着维度的增加, 数据在所占据的空间中越来越稀疏 对于聚类和孤立点检测, 点的密度和距离的定义(对聚类至关重要)变得不太有意义了 随机生成 500 个点 在任意点对中计算它们最大和最小的距离的差异 * 维规约 目的: 避免维灾难 降低数据挖掘算法的时间和内存消耗 使数据更容易可视化 能删除不相关的特征并降低噪声 技术 主成分分析 奇异值分解 其它:监督和非线性技术 * 维规约: PCA 主成分分析(PCA)目标是找到一个投影来捕获数据中最大的变化量 找出协方差矩阵的特征向量 特征向量定义新的空间 线性 x2 x1 e * 维规约: ISOMAP 构建一个相邻图 计算图中的每一点对的最短路径距离– 测地距离 非线性 By: Tenenbaum, de Silva, Langford (2000) * 特征子集选择 降低维度的另一种方法 冗余特征 重复了包含在一个或多个其它属性中的许多或所有信息 例如: 一种产品的购买价格和所支付的销售税额包含许多相同的信息 不相关特征 包含对于手头的数据挖掘任务几乎完全没用的信息 例如: 学生的 ID 号码对于预测学生的总平均成绩(GPA)是不相关的 * 特征子集选择 技术: 蛮力方法: 将所有可能的特征子集作为数据挖掘算法的输入 嵌入方法: 特征子集作为数据挖掘算法的一部分自然地出现 过滤方法: 在数据挖掘算法运行前进行特征选择 包装方法: 将数据挖掘算法作为黑盒找出最佳属性子集 * 特征子集选择体系架构 属性 搜索 策略 属性 子集 评估 停止标准 选择的属性 验证 过程 不 满足 满足 * 特征创建 创建新的属性集能比原有属性更有效地捕获数据集中的重要信息 三种通用方法: 特征提取 特定领域需要特定的提取方法, 如图像处理 映射数据到新的空间 特征构造 合并特征 * 映射数据到新的空间 两个正弦波 两个正弦波 + 噪声 频率 傅立叶变换 小波变换 * 使用类标号离散化 基于熵的方法 x 和 y 都分为3个区间 x 和 y 都分为5个区间 * 不使用类标号的离散化 数据 等宽离散化 等频率离散化 K均值离散化 * 属性变换 通过一个函数映射某个给定的属性值的集合到一个新的替代值的集合, 使得每一个旧值可以用一个新的值来识别 简单函数: xk, log(x), ex, |x| 标准化和规范化 如:年龄与收入 * 相似度和相异度 相似度 是两个对象相似程度的数值度量. 两个对象越相似, 它们的相似度越高. 在 [0,1] 区间取值
您可能关注的文档
最近下载
- 述责述廉报告 述责述廉报告2020三篇.docx VIP
- 沪教版小学四年级语文第一学期全册课件.ppt
- [贾平凹废都柳月]贾平凹作品废都.pdf
- 营房安全知识.docx VIP
- 东华大学教职工各类俱乐部(文体类)协会管理规定.doc
- 安徽省合肥市第四十五中学2023-2024学年八年级上学期期中物理试题(含答案).docx VIP
- 小学数学教研组教研工作总结PPT.pptx
- 贸易安全标准培训教材PPT课件(精编)共42页PPT-课件有实际AEO企业案例.pptx VIP
- 18.4数学活动-折纸做60°-30°-15°的角省公开课获奖课件市赛课比赛一等奖课件.pptx
- 2024软件正版化培训.pptx VIP
文档评论(0)