数据挖掘导论复习一(介绍+数据预处理方法+定性归纳) .pdfVIP

数据挖掘导论复习一(介绍+数据预处理方法+定性归纳) .pdf

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据挖掘导论复习⼀(介绍+数据预处理⽅法+定性归纳)

数据挖掘=数据库+机器学习

算法经验模型

机器学习任务:分类、回归、聚类(KMeans、DCSAN、层次聚类)、数据降维、数据预处理

常⽤分类器:KNN、贝叶斯、逻辑回归、决策树、随机森林

本书将介绍数据挖掘与数据库知识发现的基本知识,以及从⼤量有噪声、不完整、甚⾄是不⼀致数据集合中,挖掘出有意义的模式知识所涉

及的概念与技术⽅法。同时还将介绍数据挖掘系统的结构、数据挖掘所获得的知识种类,以及数据挖掘系统的分类。

数据挖掘是⼀个多学科交叉领域,这些交叉学科包括:数据库系统、机器学习、统计学、可视化和信息科学。

1.数据挖掘导论

1.1数据挖掘发展概述

1.1.1数据丰富与知识匮乏

1.1.2从数据到知识

置⾝市场经济且⾯向全球性剧烈竞争的环境下,任何商家的优势不单纯地取决于如产品、服务、地区等⽅⾯因素,⽽在于创新。⽤知识作

为创新的原动⼒,就能使商家长期持续地保持竞争优势。因此要能及时迅速地从⽇积⽉累庞⼤的数据库中,以及互联⽹上获取与经营决策相

关的知识。

为了便于获得决策所需信息,就有必要将整个机构内的数据以统⼀形式集成存储在⼀起,这就是形成了数据仓库。数据仓库不同于管理⽇常

⼯作数据的数据库,它是为了便于分析针对特定主题的集成化的、时变的即提供存贮5-10年或更长时间的数据,这些数据⼀旦存⼊就不再

发⽣变化。

数据仓库的出现,为更深⼊对数据进⾏分析提供了条件,针对市场变化的加速⼈们提出了能进⾏实时分析和产⽣相应报表的在线分析⼯具

OLAP(onlineanalyticalprocessing)。OLAP能允许⽤户以交互⽅式浏览数据仓库内容,并对其中数据进⾏多维分析,且能及时地从

变化和不太完整的数据中提取出与企业经营活动密切相关的信息。例如:OLAP能对不同时期、不同地域的商业数据中变化趋势进⾏对⽐

分析。

OLAP是数据分析⼿段的⼀⼤进步,以往的分析⼯具所得到的报告结果只能回答“什么”(WHAT),⽽OLAP的分析结果能回答“为什

么”。OLAP分析过程是建⽴在⽤户对深藏在数据中的某种知识有预感和假设的前提下,由⽤户指导的信息分析与知识发现过程。

但由于数据仓库(通常数据贮藏量以TB计)内容来源于多个数据源,因此其中埋藏着丰富的不为⽤户所知的有⽤信息和知识,⽽要使企业

能及时准确地做出科学的经营决策,以适应变化迅速的市场环境,就需要有基于计算机与信息技术的智能化⾃动⼯具,来帮助挖掘隐藏在数

据中的各类知识。**这类⼯具不应再基于⽤户假设,⽽应能⾃⾝⽣成多种假设;再⽤数据仓库(或⼤型数据库)中的数据进⾏检验或验证;然

后返回⽤户最有价值的检验结果。**此外这类⼯具还应能适应现实世界中数据的多种特性(即量⼤、含噪声、不完整、动态、稀疏性、异

质、⾮线性等)。要达到上述要求,只借助于⼀般数学分析⽅法是⽆能达到的。多年来,数理统计技术⽅法以及⼈⼯智能和知识⼯程等领域

的研究成果,诸如推理、机器学习、知识获取、模糊理论、神经⽹络、进化计算、模式识别、粗糙集理论等等诸多研究分⽀,给开发满⾜这

类要求的数据深度分析⼯具提供了坚实⽽丰富的理论和技术基础。

九⼗年代中期以来,许多软件开发商,基于数理统计、⼈⼯智能、机器学习、神经⽹络、进化计算和模式识别等多种技术和市场需求,开

发了许多数据挖掘与知识发现软件⼯具,从⽽形成了近年来软件开发市场的热点。⽬前数据挖掘⼯具已开始向智能化整体数据分析解决⽅

案发展,这是从数据到知识演化过程中的⼀个重要⾥程碑。如图所⽰

1.3数据挖掘产⽣

1.2数据挖掘基本知识

1.2.1数据挖掘定义

数据挖掘(datamining),⼜称为数据库中知识发现(knowledgediscoveryfromdatabase,简称KDD),它是⼀个从⼤量数据中抽取

挖掘出未知的、有价值的模式或规律等知识的复杂过程。数据挖掘的全过程定义如下所⽰

知识挖掘过程和步骤

1.问题定义

2.数据采集

3.数据预处理

数据清洗:数据缺失点补充、离群点异常点检测、重复数据监测等。清除数据噪声和与挖掘主题明显⽆

关的数据

数据集成:将来⾃多数据源中的相关数据组合到⼀起

数据转换:

数据类型变换(离散连续:等宽法‘、等频法、聚类、0-1映射sigmoid函数)

规范化:、零-均值规范化、标准化(z_score、最⼩最⼤规范化)

规约:独热编码、ordinal、主成分分析、逐步向前选择逐步向后删除、决策树

将数据转换为易于进⾏数据挖掘的数据存储形式

4.建⽴模型

5.评估和解释

根据

您可能关注的文档

文档评论(0)

. + 关注
官方认证
文档贡献者

专注于职业教育考试,学历提升。

版权声明书
用户编号:8032132030000054
认证主体社旗县清显文具店
IP属地河南
统一社会信用代码/组织机构代码
92411327MA45REK87Q

1亿VIP精品文档

相关文档