数据挖掘章概念描述特征化与比较.pptVIP

数据挖掘章概念描述特征化与比较.ppt

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘章概念描述特征化与比较

概念描述 特征化和比较 什么是概念描述? 数据概化和基于汇总的特征化 解析特征化: 分析属性之间的关联性 挖掘类比较:获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 讨论 总结 什么是概念描述? 描述性 vs. 预测性 数据挖掘 描述性数据挖掘: 预测性数据挖掘: 概念描述: 特征化:对所选择的数据集给出一个简单明了的描述,汇总 比较:提供对于两个或多个数据集进行比较的描述 概念描述和OLAP区别 概念描述: 能够处理复杂的数据类型和各种汇总方法 更加自动化 OLAP: 只能限制于少量的维度和数据类型 用户控制的流程 特征化和比较 什么是概念描述? 数据概化和基于汇总的特征化 分析特征化: 分析属性之间的关联性 挖掘类比较:获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 讨论 总结 数据概化和基于汇总的特征化 数据概化 将大量的相关数据从一个较低的概念层次抽象、转化到一个比较高的层次 方法: OLAP方法: 面向属性的归纳 OLAP方法 在数据立方体上进行计算和存储结果 优点 效率高 能够计算多种汇总 如:count,average,sum,min,max 还可以使用roll-down和roll-up操作 限制 只能处理非数值化数据和数值数据的简单汇总。 只能分析,不能自动的选择哪些字段和相应的概念层次 面向属性的归纳 KDD Workshop(89)中提出 不限制于种类字段和特定的汇总方法 方法介绍: 使用SQL等收集相关数据 通过数据属性值删除和属性值概化来实现概化 聚集通过合并相等的广义元组,并累计他们对应的计数值进行 和使用者之间交互式的呈现方式. 基本方法 数据聚焦:选择和当前分析相关的数据,包括维。 属性删除: 如果某个属性包含大量不同值,但是 1)在该属性上没有概化操作, 或者2)它的较高层概念用其它属性表示。 属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。 属性阈值控制: typical 2-8, specified/default. 概化关系阈值控制: 控制最终关系的大小 基本算法 InitialRel: 得到相关数据,形成初始关系表 PreGen: 通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。 PrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。 结果的表示:概化关系、交叉表、3D立方体 示例 DMQL: use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate” 相应的SQL: Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in {“Msc”, “MBA”, “PhD” } 类特征化:示例 概化结果的表示 概化关系: 一个表格,其中有属性字段,后附汇总方法。 交叉表: 二维交叉表 可视化方法: Pie charts, bar charts, curves, cubes, and other visual forms. 量化特征规则: (上表与136页例4.26) 表达方式-概化关系(133页例4.22) 表达方式—交叉表(133页例4.23) 使用Cube技术进行实现 对给定的数据动态创建数据立方体: 便于有效的下钻操作 可能增加响应时间 解决方法:实现存储一些较高层次的统计信息。 使用预定义的数据立方体: 预先构建数据立方体 Cube计算的花费和额外的存储空间 特征化和比较 什么是概念描述? 数据概化和基于汇总的特征化 分析特征化: 分析属性之间的关联性 挖掘类比较:获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 讨论 总结 属性相关性分析 why? 哪些维需要包括? 需要概化到什么层次? 减少属性;从而容易理解模型结果 What? 使用统计的方法进行数据预处理 过滤掉一些不相关或者相关性比较弱的字段 保留并对相关属性进行排序 相关性和维度、层次有关 分析特征化,分析比较 属性相关性分析 步骤: 数据收集 使用保守的AOI进行预相关分析 相关性分析,删除不相关和弱相关属性 使用AOI产生概念描述 相关性

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档