第一章数据挖掘及其算法综述.docx

下载文档

0
0
约2.01万字
约 24页
2024-07-05 发布于天津
举报
版权申诉
保障服务

第一章数据挖掘及其算法综述.docx

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第一章数据挖掘及其算法综述

1.1本文研究的目的及意义

随着数据库和计算机网络的广泛应用，加上先进的数据自动生成和采集工具的使用，人们拥有的数据量急剧增大。然而数据的极速增长与数据分析方法的改进并不成正比，一方面人们希望在已有的大量数据的基础上进行科学研究、商业决策、企业管理，另一方面传统的数据分析工具很难令人满意的对数据进行深层次的处理，这样二者之间的矛盾日益突出，正是在这种状况下，数据挖掘应运而生。数据挖掘作为一项从海量数据中提取知识的信息技术是一个以发现为驱动的过程，已经引起了学术界和产业界的极大重视。特别是从1989年8月在美国底特律召开的第11届国际人工智能联合会议上首次出现数据库中的知识发现概念以来，数据挖掘在国际国内都受到了前所未有的重视，目前数据挖掘广泛应用于各个领域，如地理学、地质学、生物医学等等，总之数据挖掘的出现使数据库技术进入了一个更高级的阶段，不仅能对过去的数据进行查询和遍历，还能够找出以往数据间潜在的联系，促进信息的传播。

近十几年来数据挖掘软件行业的发展飞速。各种应用软件层出不穷，如何选择合适的挖掘工具，成为一个很重要的问题。在软件的选择上，不同的用途会有不同的要求，而本文是针对教学软件的选择来做一些研究。目前在这一方面的文献几乎空白。而数据挖掘这一专业的重要性日益突显，本文通过实例研究与评估，为教学软件的选择提供一个参考。

1.2数据挖掘算法简述

1.2.1数据挖掘的定义

数据挖掘是一个从数据中提取模式的过程，是一个受多个学科影响的交叉领域,包括数据库系统、统计学、机器学习、可视化和信息科学等；数据挖掘反复使用多种数据挖掘算法从观测数据中确定模式或合理模型，是一种决策支持过程。通过预测客户的行为，帮助企业的决策者调整市场策略，减少风险，做出正确的决策。由于传统的事物型工具（如查询工具、报表工具）无法回答事先未定义的综合性问题或跨部门/机构的问题，因此其用户必须清楚地了解问题的目的。数据挖掘就可以回答事先未加定义的综合性问题或跨部门/机构的问题，挖掘潜在的模式并预测未来的趋势，用户不必提出确切的问题，而且模糊问题更有利于发现未知的事实。

1.2.2基本数据挖掘技术

?决策树

决策树可能是现在最流行的有指导数据挖掘结构。创建一棵决策树最常见的方法是从训练数据中选择实例的一个子集来构建一棵初始树。剩余实例被用于检验树的准确度。如果任意一个实例的分类错误，将该实例添加到当前的训练集中，重复该过程。它的一个主要目标是最小化树的层次和结点数，从而最大化数据概化。决策树已经成功地应用到现实问题中，它易于理解并能够准确地映射为一组产生式规则。

?生成关联规则

关联规则能从大型数据库中找到关联关系，关联规则和传统的产生式规则不同，某规则中的前担条件可能出现在另一条规则的结果里。同时，关联规则生成器允许规则的结果包含一个或多个属性值。由于关关规则更复杂，已经开发出专门的技术，从而更有效地生成关联规则。规则置信度和支持度有助于确定哪些已发现的关联从市场前景看是有利的。然而，在解释关联规则时必须小心，因为许多已发现的关系价值并不高。

?K-平均值算法

K-平均值算法是一种统计的无指导聚类技术。算法中的所有属性都必须是数值型的，并且用户必须确定要发现的簇的数目。开始的时候，算法为每个簇任意选择一个数据点。然后，每个数据实例被放置在与它最相似的簇里。通过计算产生新的簇中心，重复该过程直到簇中心不再改变为止。K-平均值算法易于实现和理解。然而，该算法无法保证收敛到一个完全理想的解决方案，缺乏解释所发现内容的能力，也不能指出哪些属性对确定所形成的簇时是重要的。尽管有这些不足之处，K-平均值算法还是使用最广泛的聚类技术之一。

《数据挖掘教程》RichardJ.RoigerMichaelW.Geatz著翁敬农译

1.3基本数据挖掘算法的详细介绍

1.3.1数据挖掘中的关联规则

什么是关联规则

在描述有关关联规则的一些细节之前，我们先来看一个有趣的故事：尿布与啤酒的故事。

在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是：跟尿布一起购买最多的商品竟是啤酒！经过大量实际调查和分析，揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式：在美国，