- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据挖掘导论复习⼀(介绍+数据预处理⽅法+定性归纳)
数据挖掘=数据库+机器学习
算法经验模型
机器学习任务:分类、回归、聚类(KMeans、DCSAN、层次聚类)、数据降维、数据预处理
常⽤分类器:KNN、贝叶斯、逻辑回归、决策树、随机森林
本书将介绍数据挖掘与数据库知识发现的基本知识,以及从⼤量有噪声、不完整、甚⾄是不⼀致数据集合中,挖掘出有意义的模式知识所涉
及的概念与技术⽅法。同时还将介绍数据挖掘系统的结构、数据挖掘所获得的知识种类,以及数据挖掘系统的分类。
数据挖掘是⼀个多学科交叉领域,这些交叉学科包括:数据库系统、机器学习、统计学、可视化和信息科学。
1.数据挖掘导论
1.1数据挖掘发展概述
1.1.1数据丰富与知识匮乏
1.1.2从数据到知识
置⾝市场经济且⾯向全球性剧烈竞争的环境下,任何商家的优势不单纯地取决于如产品、服务、地区等⽅⾯因素,⽽在于创新。⽤知识作
为创新的原动⼒,就能使商家长期持续地保持竞争优势。因此要能及时迅速地从⽇积⽉累庞⼤的数据库中,以及互联⽹上获取与经营决策相
关的知识。
为了便于获得决策所需信息,就有必要将整个机构内的数据以统⼀形式集成存储在⼀起,这就是形成了数据仓库。数据仓库不同于管理⽇常
⼯作数据的数据库,它是为了便于分析针对特定主题的集成化的、时变的即提供存贮5-10年或更长时间的数据,这些数据⼀旦存⼊就不再
发⽣变化。
数据仓库的出现,为更深⼊对数据进⾏分析提供了条件,针对市场变化的加速⼈们提出了能进⾏实时分析和产⽣相应报表的在线分析⼯具
OLAP(onlineanalyticalprocessing)。OLAP能允许⽤户以交互⽅式浏览数据仓库内容,并对其中数据进⾏多维分析,且能及时地从
变化和不太完整的数据中提取出与企业经营活动密切相关的信息。例如:OLAP能对不同时期、不同地域的商业数据中变化趋势进⾏对⽐
分析。
OLAP是数据分析⼿段的⼀⼤进步,以往的分析⼯具所得到的报告结果只能回答“什么”(WHAT),⽽OLAP的分析结果能回答“为什
么”。OLAP分析过程是建⽴在⽤户对深藏在数据中的某种知识有预感和假设的前提下,由⽤户指导的信息分析与知识发现过程。
但由于数据仓库(通常数据贮藏量以TB计)内容来源于多个数据源,因此其中埋藏着丰富的不为⽤户所知的有⽤信息和知识,⽽要使企业
能及时准确地做出科学的经营决策,以适应变化迅速的市场环境,就需要有基于计算机与信息技术的智能化⾃动⼯具,来帮助挖掘隐藏在数
据中的各类知识。**这类⼯具不应再基于⽤户假设,⽽应能⾃⾝⽣成多种假设;再⽤数据仓库(或⼤型数据库)中的数据进⾏检验或验证;然
后返回⽤户最有价值的检验结果。**此外这类⼯具还应能适应现实世界中数据的多种特性(即量⼤、含噪声、不完整、动态、稀疏性、异
质、⾮线性等)。要达到上述要求,只借助于⼀般数学分析⽅法是⽆能达到的。多年来,数理统计技术⽅法以及⼈⼯智能和知识⼯程等领域
的研究成果,诸如推理、机器学习、知识获取、模糊理论、神经⽹络、进化计算、模式识别、粗糙集理论等等诸多研究分⽀,给开发满⾜这
类要求的数据深度分析⼯具提供了坚实⽽丰富的理论和技术基础。
九⼗年代中期以来,许多软件开发商,基于数理统计、⼈⼯智能、机器学习、神经⽹络、进化计算和模式识别等多种技术和市场需求,开
发了许多数据挖掘与知识发现软件⼯具,从⽽形成了近年来软件开发市场的热点。⽬前数据挖掘⼯具已开始向智能化整体数据分析解决⽅
案发展,这是从数据到知识演化过程中的⼀个重要⾥程碑。如图所⽰
1.3数据挖掘产⽣
1.2数据挖掘基本知识
1.2.1数据挖掘定义
数据挖掘(datamining),⼜称为数据库中知识发现(knowledgediscoveryfromdatabase,简称KDD),它是⼀个从⼤量数据中抽取
挖掘出未知的、有价值的模式或规律等知识的复杂过程。数据挖掘的全过程定义如下所⽰
知识挖掘过程和步骤
1.问题定义
2.数据采集
3.数据预处理
数据清洗:数据缺失点补充、离群点异常点检测、重复数据监测等。清除数据噪声和与挖掘主题明显⽆
关的数据
数据集成:将来⾃多数据源中的相关数据组合到⼀起
数据转换:
数据类型变换(离散连续:等宽法‘、等频法、聚类、0-1映射sigmoid函数)
规范化:、零-均值规范化、标准化(z_score、最⼩最⼤规范化)
规约:独热编码、ordinal、主成分分析、逐步向前选择逐步向后删除、决策树
将数据转换为易于进⾏数据挖掘的数据存储形式
4.建⽴模型
5.评估和解释
根据
您可能关注的文档
- 初中八年级数学下册第十八章平行四边形单元复习试题(含答案) (55).pdf
- 化工设备习题 .pdf
- 小学语文微课教案 .pdf
- 语文S版三年级下学期语文修改病句课堂知识练习题 .pdf
- [初中数学]勾股定理的逆定理课堂实录及反思-人教版 .pdf
- 大学计算机期末考试试题及其答案 .pdf
- 初中八年级数学下册第十八章平行四边形单元复习试题(含答案) (69).pdf
- 传媒2019年7月《电子商务》课程考试作业考核试题1答案 .pdf
- 卫生事业单位招聘考试临床医学专业知识真题试卷汇编七_真题-无答案.pdf
- 密码基础知识试题库+判断 .pdf
- 人教新目标版英语九年级 中考模拟学情评估(三)(含答案).pdf
- 上海市风华中学2024-2025学年高三上学期9月阶段测试英语试题(无答案).pdf
- 统编版2024-2025学年语文六年级上册期末检测卷(有答案).pdf
- 人教新目标版英语九年级第二学期全册学情评估(含答案).pdf
- 内蒙古自治区巴彦淖尔市杭锦后旗第六中学2024-2025学年八年级上学期阶段性测试历史试题(解析版).pdf
- 湖南省娄底市涟源市部分学校2024-2025学年高一上学期9月月考语文试题 Word版无答案.pdf
- 湖南省衡阳市常宁市2023-2024学年七年级上学期期末考试英语试题.pdf
- 湖南省娄底市涟源市部分学校2024-2025学年高一上学期9月月考语文试题 Word版含解析.pdf
- 江苏省泰州市姜堰区城西实验学校2024-2025学年部编版九年级上学期月考历史试卷(原卷版).pdf
- 内蒙古伊金霍洛旗2022-2023学年七年级上学期期末考试英语试题.pdf
最近下载
- 第十一单元第二十一节德彪西教学课件-2021-2022学年高中音乐人音版必修音乐鉴赏.pptx
- 人教中图版(2019)信息技术必修2 1.2 认识信息社会 教案(表格式).docx
- 高性能低表面处理环氧涂料的制备和性能研究.docx VIP
- 永临结合及转换方案-投标200页简易版.docx
- 【语文】人教部编版语文八年级上册:古诗文理解性默写(完整版).pdf VIP
- 基本乐理音程介绍PPT课件.pptx
- GB_T27065-2015_合格评定产品、过程和服务认证机构要求.doc
- 环氧改性有机硅树脂低表面能涂料的研制.doc VIP
- 0~3岁婴幼儿心理发展与教育(高职)全套教学课件.pptx
- 语文一年级上册核心素养教案全册.pdf VIP
文档评论(0)