江苏大学 数据挖掘报告.pdfVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

空间数据挖掘:空间数据挖掘(spatialdatamining)是在数据挖掘的基础

之上,结合地理信息系统(GIS)、遥感图像处理、全球定位系统(GPS)、模式识

别、可视化等相关的研究领域而形成的一个分支学科,也称为空间数据挖掘和知

识发现。简单来说,空间数据挖掘即数据变为知识。

1.传统空间数据挖掘

空间数据挖掘所用理论方法的好坏直接影响到所发现知识的质量。可用的理

论方法主要有确定集合论、扩展集合论、仿生学方法、可视化、决策树等,其中

包括:概率论、证据理论、空间统计学、规则归纳、聚类分析、空间分析、神经

网络、遗传算法等[3]。经过多年研究,上述理论和算法都取得了很大的进展,

但也存在一些问题。

(1)没有考虑空间数据与一般数据在存储、处理和特性等方面的区别,如

面对高维海量的空间数据,目前的GIS不足以描述空间要素的多维信息结构,

不能方便地进行多维信息的空间概括性分析,而且效率低。

(2)被污染的空间数据会直接影响空间数据挖掘,使其不能提供可靠的知

识、优质的服务和决策支持。从现实世界采集的数据绝大多数都是有污染的,无

论采用什么方式获取的空间数据,都无可避免的存在一些问题或错误。如何减少

受污染的数据对最终挖掘结果的影响,一直都是空间数据挖掘需要面临的重要问

题。

(3)空间数据具有明显的不确定性。主要是由数据采样、数据模型抽象、

空间概念和空间数据转换导致的。有一些对空间数据不确定性的研究,但主要是

针对空间位置的不确定性,对数据本身的不确定性研究还显不足。

(4)目前的空间数据挖掘技术还缺少适当的空间知识表达方法。例如:如

何描述知识发现中的支持度、置信度、强弱规则等专业名词?如何描述不确定的

空间数据的随机性和模糊性?

(5)空间数据挖掘产生的所有模式并非都是用户需要的。因此需要一种技

术来评估基于主观度量所发现的模式的兴趣度。

2.大数据背景下的空间数据挖掘

随着大数据时代的来临,在对空间数据进行搜索的基础上,能够从大数据信息

中挖掘出更多的知识,转化这些数据,以后便能利用这些数据进行有效的利用。

不仅有百度的搜索日志分析,腾讯、淘宝和支付宝的数据仓库等也采用了数据挖

掘技术处理大规模数据。2010年4月,淘宝推出“数据魔方”,其千亿级海量数

据库每天支持4~5千万的更新操作,每天更新超过20亿,更新数据量超过

2.5。2012年3月,我国科技部发布的“‘十二五’国家科技计划信息技术领域

2013年度备选项目征集指南”,把大数据研究列在了首位[3]。可见,大数据下

的空间数据挖掘具有非常重要的显示意义。

2.1常用的空间数据挖掘方法

(1)空间分析法

利用GIS的各种空间分析模型和空间操作对空间数据库中的数据进行深加工,从

而产生新的信息和知识[2]。目前常用的空间分析方法有综合属性数据分析、拓

扑分析、缓冲区分析、密度分析等,可发现目标在空间上的相连、相邻和共生等

关联规则,或发现目标之间的最短路径、最优路径等辅助决策的知识。空间分析

方法常作为预处理和特征提取方法与其它数据挖掘方法结合使用。

(2)归纳学习法

归纳学习方法是从大量的经验数据中归纳抽取出一般的规则和模式,其大部分算

法来源于机器学习领域。HanJiawei教授等提出了一种面向属性的归纳方法,

专门用于从数据库中发现知识,通过概念树的提升对数据进行概括和综合,归纳

出高层次的模式或特征。裴健等对面向属性的归纳方法进行了扩展,形成了基于

空间属性的归纳方法。

(3)神经网络法

神经网络是由大量神经元通过极其丰富和完善的连接而构成的自适应非线

性动态系统,具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自

适应等功能。大量神经元集体通过训练来学习待分析数据中的模式,适于从环境

信息复杂、背景知识模糊、推理规则不明确的非线性空间系统中挖掘分类知识。

(4)云理论

这是李德毅博士提出的用于处理不确定性的一种新理论,包括云模型(Cloud

Model),虚拟云(VirtualCloud)、云运算(Cloudoperation)、云变换(Cloud

Transform)和不确定性推理(ReasoningunderUncertainty)等主要内容。运用

云理论进行空间数据挖掘,可进行概念和知识的表达、定量和定性的转化、概念

文档评论(0)

157****2173 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档