关联规则基础上数据挖掘最新算法.docx

下载文档

4
0
约6.53千字
约 9页
2017-05-29 发布于北京
举报
版权申诉
保障服务

关联规则基础上数据挖掘最新算法.docx

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

课程设计报告名称：数据仓库与数据挖掘题目：数据挖掘中关联规则的发展趋势院系：经济管理系班级：信管1201 学号： 201206040109 学生姓名：韩智强指导教师：温磊成绩：日期：2015年5月目录一、引?言3二、基于复杂数据组织形式的关联规则算法3(一)并行数据库3(二)数据仓库3(三)时间连续数据库4(四)增量式更新数据库4三、新研究方法的引入5(一)模糊集5(二)概念格5(三)其他研究方法5四、前沿研究5(一)时间-空间数据库5(二)Web挖掘6(三)多媒体数据库6(四)可视化挖掘6五、总结与展望7数据挖掘中关联规则的发展趋势一、引?言目前,越来越多的行业都存在巨量数据处理的问题,结构简明的关联规则凭借简单易懂的规则表达形式较其他数据挖掘方法更容易被接受,其广泛的应用前景也被学术界所认同。理论体系的逐渐完善和实际应用的巨大成功使关联规则一度成为数据挖掘的重要研究方向。但随着现代数据库技术的发展和应用领域的拓宽,数据存储形式甚至数据格式都发生了巨大变化,关联规则研究也面临着前所未有的挑战。为了明确关联规则研究的现实意义和未来发展趋势,笔者考察了近几年国内外相关的研究成果和最新动态。在对复杂数据组织形式的关联规则挖掘详细描述的基础上,探讨了其他学科领域对关联规则的理解及相应的研究方法,最后提出了关联规则的前沿研究问题和未来的发展趋势。二、基于复杂数据组织形式的关联规则算法??随着并行和分布式数据库系统、数据仓库、联机分析处理(OLAP)和数据立方体等数据组织、存储、分析和处理技术的出现和成熟,使关联规则挖掘在并行数据库、数据仓库、时间连续数据库和增量更新数据库等复杂数据组织形式中的应用成为可能,相应地产生了一系列新的关联规则算法。(一)并行数据库对于并行数据库而言,一般具有多个可以同时独立运行的处理器(结点),并通过网络交换信息。由于并行体系结构计算能力强,数据处理量大,因而基于并行体系结构的关联规则算法明显优于基于单处理器的顺序算法。并行数据库可以分为无共享体系(share-nothing)结构和内存共享体系(shared-memory)结构。关联规则并行算法的设计主要从数据合理分配、减少I/O操作、负载平衡、减少结点间的通信和同步以及减少计算冗余等方面权衡考虑。无共享体系结构中,数据库分布在各个结点(即分布式数据库),各结点间有网络连接,每个结点可独立处理子数据库。主要算法都是将原有的顺序算法并行化,如Agrawal,R.等(1996)的Countdistribu2tion,DataDistribution和CandidateDistribution[1];Park,J.S.等(1995)的PDM[2];Cheung,D.W.等(1996)的FDM[3]和Cheung,D.W.等(1996)的DMA[4],以及Za2ki,M.J.等(1997)的ParEclat[5]等算法。在内存共享体系结构中多个结点共用内存和数据库,各结点通过共享变量通信。这类算法采用了异步候选集生成,比宽度优先算法的扫描次数少。但各结点可独立访问数据库,因此需要解决I/O通道共享和并发访问数据库时I/O占用问题。由于这类并行数据库较少使用,相关的研究也不多,有代表性的算法是APM[6]。(二)数据仓库目前,数据仓库已经成为标准的数据存储和组织形式。在数据仓库中各种数据以多维形式组织,即数据立方体。而采用OLAP技术驱动的数据仓库具有数据质量高、相关数据环境好和实时分析等优点。因此相应的算法就直接针对数据立方体设计,并由OLAP技术实现。这类算法多是已有的多维关联规则算法的推广和优化。较为简单的算法是建立在频繁谓词集上的,把谓词作为项,谓词的出现次数作为支持度,不考虑谓词出现的强度。如Apriori-Cube算法[7](高学东等(2003))直接在数据立方体上搜索频繁谓词集。而考虑概念层次的算法较复杂,如Adaptive-FP算法[8]和FP-Growth[9]类似,但是先对项加入概念层次编码后再建立FP-tree,采用同一支持度挖掘同一概念层次的维间和维内频繁集,采用可变支持度挖掘不同维或者同维不同概念层次的频繁集,贺琼等(2004)在Adaptive-FP的基础上进一步利用概念层次信息优化了FP-tree的建立过程[10]。(三)时间连续数据库时间连续数据库包含了随时间延续而变化的事务数据或事件记录。这类数据的特点是具有明显的时间顺序,且呈现一定的规律性或者周期性。这方面的研