- 1、本文档共63页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章 知识表示 第6章 数据挖掘与知识发现 6.1 数据挖掘的技术基础 6.1.1 数据挖掘的概念 6.1.2 数据挖掘的功能和存在的主要问题 6.1.3 数据挖掘成功案例 6.2 数据挖掘的方法步骤和语言工具 6.2.1 数据挖掘的方法 6.2.2 数据挖掘语言 6.2.3 数据挖掘的工具 6.2.4 数据挖掘的流程… 第6章 数据挖掘与知识发现 6.3 数据挖掘系统的组构及管理策略 6.3.1 数据挖掘系统的组成 6.3.2 数据挖掘系统的架构 6.3.3 数据挖掘管理系统 6.4 数据挖掘的研究与发展 6.4.1 数据挖掘系统的开发进展 6.4.2 数据挖掘未来研究方向 6.1 数据挖掘的技术基础 6.1.1 数据挖掘的概念 1. 技术的产生 面对信息社会,人们积累的数据越来越多。激增的数据背后隐藏着许多重要信息,人们希望能对其进行更高层次的分析。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。 2. 当前数据特点 ⑴ 数据规模巨大; ⑵ 数据分布存储; ⑶ 数据来源广; ⑷ 数据特性未知; ⑸ 数据包含不确定信息; ⑹ 数据包含不安全信息; ⑺ 数据日益增长。 3. 数据挖掘的定义 数据挖掘DM(Data Mining)也称为数据库中的知识发现KDD(Knowledge Discovery in Database) 。 数据挖掘就是通过采用自动或半自动的手段,对数据进行一定的处理,从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,发现和提取有意义的、隐含在其中的、人们事先不知道的、但又是有效的、新颖的、潜在有用的、最终可被理解的信息和知识的过程。从另外一个方面来说,数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。 与数据挖掘相近的同义词有知识提取、数据融合、数据/模式分析、数据考古学、数据捕捞和信息收获等等。此定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 4. 数据挖掘基本概念的区分 ⑴ 数据挖掘与传统分析方法 传统的数据分析——如查询、报表、联机应用分析等 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所得到的信息应具有先未知,有效和可实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 ⑵ 数据挖掘和知识发现 知识发现被认为是从数据中发现有用知识的整个过程,是用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后隐藏的知识。知识发现研究的问题有: ①定性知识和定量知识的发现; ②知识发现方法; ③知识发现的应用等。 ⑶ 数据挖掘和数据仓库 数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中(见图6-1)。 数据挖掘库是数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。 建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。 ⑷ 数据挖掘与信息处理 信息处理基于查询,可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式,或隐藏在数据库中的规律。 ⑸ 数据挖掘与联机分析(OLAP) OLAP分析过程在本质上是一个演绎推理的过程,是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么,OLAP则更进一步告诉你下一步会怎么样和如果采取这样的措施又会怎么样。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。 数据挖掘在本质上是一个归纳推理的过程,与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。 数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,OLAP工具能起辅助决策作用。而且在知识发现的早期阶段,OLAP工具用来探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。 ⑹ 数据挖掘与人工智能、统计学 数据挖掘是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。 数据挖掘就是充分利用了统计学和人工智能技术的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完
您可能关注的文档
- 小学语文夜莺的歌声课件5.ppt
- 第十讲中国古代管理管理制度.ppt
- 第十讲效果研究.ppt
- 第十讲相关与回归.ppt
- 小学语文教学内容的选择与整合.ppt
- 第十讲走出历史的迷宫——人类社会及其发展规律.ppt
- 小学语文第三单元复习.ppt
- 小学语文阅读与写作.ppt
- 第十课《木兰诗》.ppt
- 小学语文阅读题.ppt
- 人教版九年级英语全一册单元速记•巧练Unit13【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit9【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit11【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit14【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit8【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit4【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit13【单元测试·基础卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit7【速记清单】(原卷版+解析).docx
- 苏教版五年级上册数学分层作业设计 2.2 三角形的面积(附答案).docx
- 人教版九年级英语全一册单元速记•巧练Unit12【单元测试·基础卷】(原卷版+解析).docx
文档评论(0)