数据挖掘实验报告4数据挖实验报告4.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘实验报告4数据挖实验报告4

甘肃政法学院 本科生实验报告 (四) 姓名: 贾燚 学院:计算机科学学院 专业:信息管理与信息系统 班级:10级信管班 实验课程名称:数据仓库与数据挖掘 实验日期:2012年11月9日 指导教师及职称:朱正平 实验成绩: 开课时间:2011-2012学年二学期 甘肃政法学院实验管理中心印制 实验题目统计分析工具SPSS及其使用小组合作○是 ⊙否姓名贾燚班级10信管学 号201081020108一、实验目的1.熟悉统计分析工具SPSS的功能; 2.了解熟悉SPSS分析处理过程; 3.了解熟悉SPSS的简单使用。二.实验环境SQL Server 2000+windows XP三、实验内容与步骤1、统计分析工具 数据挖掘中你的统计工具分析工具是一种处于知识发现和信息处理工具之间的数据挖掘工具。它既可以完成信息的分析处理,又能够进一步进行商业活动的统计分析,这比单纯的信息处理功能增强了许多。 2、统计类数据挖掘工具的功能 (1)可是化功能 数据可视化功能将有助于查找大量数据之间的关系,如可以识别时间序列数据中的模式,也可以进行曲线匹配,已发现数据中的“商业规则”或“商业模式”,还可通过自动成组化离散值,或者通过改变图的始点和尺寸来操作数据。 (2)探索功能 数据挖掘工具的探索功能有助于选择适用于数据的恰当统计功能和模型。这些功能包括多维表,面向分析的求助信息;细剖,排序和数据子集;分割文件并且做示例;指明极值和冗余。 (3)统计和操作功能 统计和操作功能应该提供丰富的数据统计和操作功能, 如线性、非线性回归分析;时间序列分析;快速傅里叶变化和预测;多变量分析;ANOVA;CHAID;非参数化测试和多响应分析。 (4)数据管理功能 利用数据的管理功能可为用户提供查找细节信息、浏览数据的子集、删除冗余、比较子集、数据存储格式的转换等数据操作。 (5)显示功能 这项功能可以记录分析的步骤,将记录传送给商业分析员,然后显示整个分析任务过程。记录功能应该包括分析步骤、数据集选择过程、所选图标和图形的调色板或演示功能,以及其他信息间的通信。 (6)挖掘结果描述功能 数据挖掘结果描述功能提供较为简单的商业图表、图形和表格形式,将组数据挖掘结果表示出来,以方便复杂的数据分析和通信。这种功能应该能够很快的从图表类型中转化成数据,并按照需要将数据显示成不同的图表,能够将各种图表、图形和表的类型以合适的形式显示给商业用户,以便很容易地选择合适的表示方法。 (7)开发工具 用户利用这些开发工具可以很容易插入桌面应用程序和构件,以便进行统计分析,制作图表、图形和报表。 (8)可接受的响应时间 统计分析类数据挖掘工具的操作可能要花上几分钟甚至几个小时,这对商业对策来说都是可以接受的。当然也存在例外,例如在遇到紧急市场分析处理时,几天之后的响应时无法接受的,因为当数据不能反应当前状况时,有可能无法进行相关分析。 3、 统计分析工具的用途 (1) 趋势分析 发生时序变化的数据通常可能会出现长期的趋势变化、循环变化、季节变化以及随机变化的倾向。趋势变化的数据序列可以反映一般的变化方向,他的时序图时一种较长时间间隔上的数据变化。这种变化反映一种趋势,确定这种趋势的方法可以采用加权平均或最小二乘法。 (2)时序分析 时序分析是指在书序数据中应用所谓的相似搜索,找出与给定查询序列最接近的数据序列。 时序的相似搜索需要经过数据变换,将是时序数据从时间域转换到频率域,转化的方法有傅里叶变换(DET)和离散小波变换(DWT)。一旦数据完成变换,就可以提交系统,由系统根据索引检索出与查询序列保持最小距离的数据时序,然后通过计算时间序列和未满足查询的序列间的实际距离进行必要的后处理。 (3)周期分析 周期分析是针对周期模式的挖掘,即在时序数据库中找出重复出现的模式。周期模式挖掘可以看成以一组分片序列为连接时间的序列模式挖掘。周期模式的挖掘问题可以分为挖掘全周期模式、挖掘部分周期模式和挖掘周期关联规则3种。 挖掘全周期模式是指在周期中的每一时间点都影响时序上的循环行为。 挖掘部分周期模式是一种比较松散的全周期模式,它主要描述部分时间点的时序周期。 挖掘周期关联规则是指周期性出现的事件的关联规则,即在某个周期中,某个事件发生后,将会导致另一事件的发生。 4、统计分析工具应用 5、统计分析类工具应用中的问题 (1)在现实世界中的数据仓库极易受噪声、空缺数据和不一致性数据的影响。因为数据仓库太大,存在不完整的、含噪声的和不一致的数据是大型的、显示数据库或数据仓库的共同特点。不完整数据的出现可能有多种原因。 (2)数据含噪声可能有很多种原因:如收集数据的设备可能出故障,人为地或计算机的错误可能在数据输入时出现,数据传输中的错误也可能出现。这

文档评论(0)

zyongwxiaj8 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档