DM01数据挖掘.ppt

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DM01数据挖掘

数据挖掘概述 数据挖掘概述 田 宏 Email: th@ Telephone 主要内容 数据挖掘的基本概念 为什么需要数据挖掘? 什么是数据挖掘? 数据挖掘系统的分类 数据挖掘的应用 KDD过程 数据挖掘系统的结构 数据挖掘的技术 总结 为什么需要数据挖掘? 需求是数据挖掘产生的主要动力 数据爆炸问题 商业条码的推广,企业和政府交易的管理,以及数据采集工具的发展,都提供了巨大规模的数据 上海股票交易所每天的数据量为1G 原有的数据库工具已经不能满足用户的需求 市场的激烈竞争 新技术的发展,新的业务,市场的全球化,要求理解市场和业务 现状: 数据过量而知识贫乏 解决方案:数据仓库和数据挖掘 数据仓库与OLAP 从大规模数据库中抽取有用的知识 数据挖掘的历史回顾 统计学首次提出数据挖掘是1966年,文献可见: 1、Clark Glymour, David Madigan, Daryl Pregibon, Padhraic Smyth, Statistical Themes and Lessons for Data Mining, Data Mining and Knowledge Discovery 1, 11–28 (1997), 11-28 Selvin and Stuart, 1966, Data Dredging procedures in Survey analysis, The American Statistician, 20(3): 20-23 Chatfield, C. 1995. Model uncertainty, data mining, and statistical inference (with discussion). Journal of the Royal Statistical Society (Series A), 158: 419–466. 数据挖掘的支撑技术 数据挖掘的支撑技术 统计学 首先建立数学模型,然后根据模型提取出有关的知识 数理统计,回归分析,因子分析,主成分分析 机器学习 利用人类的认知模型模仿人类的学习方法从数据中提取知识 神经网络,决策树,遗传算法,规则推理,模糊逻辑 数据库 利用现有的数据库的方法,提取数据的特征知识 可视化方法 采用直观的图形方法表示信息模式,数据的关联,变化趋势 其它方法 信息技术等 混合方法 将各种方法结合起来,取长补短 数据挖掘的基本概念 为什么需要数据挖掘? 什么是数据挖掘? 数据挖掘系统的分类 数据挖掘的应用 KDD过程 数据挖掘系统的结构 数据挖掘的技术 总结 什么是数据挖掘? 数据挖掘(Data Mining) 从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的、对决策有价值的知识和规则(可以表现为规则,模式,约束) 其他名称 数据采掘,数据开采,数据开发,数据采矿,数据库中的知识发现(KDD), 知识抽取, 模式分析, 数据考古, 信息收获 什么不是数据挖掘? 查询处理 专家系统或小规模的统计规划 Scope of Data Mining 数据挖掘与其它概念(1) 数据挖掘与机器学习 任务是发现知识/提高系统的性能 现实数据 / 人工数据 数据量大 数据的完整性,一致性 利用数据库技术提高学习效率 背景知识 数据挖掘与数据库报表工具 将数据抽取出来,经过数学运算,以特定格式呈现给用户(考试不及格的学生的情况) 分析数据中隐藏的特征和趋势,给出数据的总体特征和发展趋势(考试不及格的学生的特征或主要原因) 数据挖掘与其它概念(2) 数据挖掘(DM)与联机分析处理(OLAP) OLAP是在较浅的层次上,利用现有数据库管理系统的查询/检索、报表功能与多维分析、统计分析方法结合,以专业报表,查询结果的形式提供决策的统计分析数据。DM是在深层次上,从数据库中发现前所未知的、隐含的知识。 OLAP-去年夏季,电冰箱在广州和沈阳的销售量各是多少? DM-哪些因素会影响电冰箱在广州和沈阳的销售量? OLAP更多地依靠用户的输入问题和假设,可能限制假设的范围;DM需要对用户有更全面的了解,用户不必提出确切的问题,只需利用挖掘隐藏的模式,这个过程是自动的。 OLAP的出现早于DM,可以作为一种广义的数据挖掘方法。二者都是从数据库中抽取有用信息的方法,就决策支持的需要而言,二者可以起到相辅相承的作用。 智能决策支持系统 决策分析系统的工具 智能决策系统的工具层 查询报表系统-MIS 日常事务操作 验证型工具-OLAP 深入了解事务,作出总结性分析 挖掘型工具-DM 预测性分析 OLAP,DM的数据来源于MIS,汇总提炼 DM得到的规则作为OLAP的输入 OLAP也可以用来检验规则的

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档