归纳算法可展性算法研究综述 数据挖掘课件.ppt

归纳算法可展性算法研究综述 数据挖掘课件.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
归纳算法可展性算法研究综述 数据挖掘课件

归纳算法可扩展性算法 研究综述 主讲人:蔡伟杰 可扩展性研究综述 为什么需要进行可扩展性研究 1训练集大,准确率上升 2为了寻找到小事件情况 3其他需要 多大的数据量? 100M-1G 可扩展性研究综述 什么是可扩展性? 时间复杂度: 和记录个数、属性之间的关系。 对空间的需求: 避免超过主存的情况。 模型结果的质量: 质量不能明显的降低。 可扩展性研究综述 可扩展性方法分类: 设计一个快速算法 限制模型空间 、强大的启发式搜索 、算法、编程上的优化 、并行方法 数据分片 选择一个实例子空间 、选择一个属性子空间 、对子空间顺序进行处理 、对子空间并行进行处理 关系性表达 用关系的方式表达数据 、将数据挖掘整合到数据库管理中 可扩展性研究综述 设计一个快速算法: 算法时间复杂度容忍极限 O(e3/2) 数据挖掘就是在一个模型空间中寻找某个模型,该模型在某些标准下表现得很好。 可扩展性研究综述 限制模型搜索的空间 线形回归方法、简单神经元、单层决策树(decision stumps)。 搜索空间小而且效果也不坏。 可扩展性研究综述 强大的启发式搜索: 大数据量情况,不允许生成多个模型之后再进行选择 决策树分而治之的方法:ID3、C4.5复杂度O(ea2)。 规则集(rule sets)。但是其效率较差O(e3)甚至更高。 MetaDENDRAL-style rule 可扩展性研究综述 算法、编程优化 : 使用有效的数据结构(bit vectors,hash tables,binary search trees)和聪明的编程技巧 对MetaDENDRAL-style rule的优化 对决策树的优化: 充足的统计信息 可扩展性研究综述 并行处理 : 搜索空间的并行处理 : 使用共享内存多处理器很好的实现了决策树的搜索空间的并行处理。 并行匹配: 对节点的评估代价是很高的,同时也有很大的并行性。 数据分割之后的并行处理 可扩展性研究综述 数据分割: 选择一个子集: 只选择一个子集进行处理 : 抽样方法: 抽样和准确率的关系: 主动和被动抽样: 可扩展性研究综述 数据分割:选择一个属性子空间 当前属性选择工作的焦点 训练集较小的时候 ,降低结果Overfitting 领域专家的交互 ,选择属性 选择足够多的属性 ,再去除 可扩展性研究综述 数据分割: 对子空间顺序进行处理 并行计算子空间 可扩展性研究综述 关系表达 挖掘小数据的速度更快; 扁平化极大的数据集往往不可行 方法: 用关系的方式表达数据 数据挖掘和数据库管理系统的结合 可扩展性研究综述 挖掘关系数据: 对层次数据的直接挖掘 挖掘多表数据库 ILP研究数据以关系方式存的知识发现 数据挖掘和DBMS结合 将DBMS作为一个简单的数据源 将对数据进行计算的部分放入DBMS Cache-Mine 将数据挖掘操作作为一个函数(UDF) 可扩展性研究综述 分布式挖掘: 数据量太大,不能存放在本地; 数据传输的代价太大; 隐私问题,不能无限制的获取数据。 * * 四种和数据库结合方法的比较 * * *

文档评论(0)

liwenhua11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档