数据挖掘与统计理论 .docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘与统计理论 .doc

2006 年第 1 期 (总第 51 期) 漳州师范学院学报(自然科学版) Journal of Zhangzhou Teachers College(Nat. Sci.) No. 1. 2006 年 General No. 51 文章编号:1008-7826(2006)01-0023-04 数据挖掘与统计理论 周忠眉 (漳州师范学院 计算机科学系, 福建 漳州 363000) 摘 要: 随着数据库技术的不断发展和数据库系统的广泛应用,数据库中存储的数据量急剧增大,迫切需要 新的计算理论和工具帮助人们从大量信息中抽取有用信息,即知识,数据挖掘学科的诞生正是适应这一需要. 传 统数据分析工具数理统计无疑在这一学科中扮演着重要角色,阐述数据挖掘的主要任务及统计理论在各任务中的 应用,旨在更好结合统计理论探讨数据挖掘,更好发挥数理统计理论在数据挖掘中的作用. 关键词: 数据挖掘 ; 统计 ; 模型 中图分类号: 文献标示码: TP274 A 1 数据挖掘与数理统计关系 随着数据库技术的不断发展和数据库系统的广泛应用,数据库中存储的数据量急剧增大,让我们来看 一些身边俯拾即是的现象:《纽约时报》由 60 年代的 10~20 版扩张至现在的 100~200 版,最高增达 1572 版;《北京青年报》也已是 16~40 版;市场营销报已达 100 版. 然而在现实社会中,人均日阅读时间通常 为 30~45 分钟,只能浏览一份 24 版的报纸. 大量信息在给人们带来方便的同时也带来了一大堆问题:第 一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致, 难以统一处理. “如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”,面对这一 挑战,数据挖掘应运而生. 数据挖掘是指在数据中发现有效的、新颖的、潜在有用的、最终可理解的模式. 为了从大数据库低层数据中抽取高层知识,数据挖掘利用其他学科知识:机器学习、模式识别、数据库、 统计理论、人工智能、专家系统中的知识获取、数据可视化,高性能计算等[1][2]. 数理统计与数据挖掘有何 不同?数据挖掘注重知识发现的整个过程,包括数据的如何存储与访问,算法如何扩展以有效适合大数据 量,结果如何被解释与可视化,如何支持人机交互;而统计关心的是统计模型有效性的数学理论依据,数 理统计理论在数据挖掘各任务中有广泛应用. 为了更好发挥统计理论在数据挖掘中作用,本文阐述数据挖 掘的主要任务,举例说明统计理论在各任务中的应用. 2 数据挖掘主要任务 2.1 关联规则发现与相关分析: 关联规则是如下形式的一种规则:“在购买面包和黄油的顾客中,有 90%的人同时也买了牛奶”. 关 联性分析广泛应用于交易数据分析,通过分析结果来指导销售、目录设计及其它市场决策的制定. 对于关 联规则问题的研究最早由 R.Agrawal 等提出[3],其目的是要在交易数据库中发现各项目之间的关系. 随着 条形码技术的发展,零售企业交易数据库中存储了大量的售货数据. 利用关联规则发现技术对这些历史事 务数据进行分析,就可对顾客的购买行为提供极有价值的信息. 例如,可以帮助如何摆放货架上的商品(如 收稿日期:2005-10-27 基金项目:福建省教育厅科研基金资助项目(JA04248) 作者简介:周忠眉(1965-), 女, 浙江温州市人, 副教授, 博士生. 把顾客经常同时买的商品放在一起),帮助如何规划市场(怎样相互搭配进货),实施促销计划(对相关联产品 中低价产品进行让利来促进高价产品的销售). 从事务数据中发现关联规则,对于改进零售业等商业活动的 决策非常重要. 最著名、最重要的关联规则发现算法是 R.Agrawal 等人提出的 Apriori 算法. 该算法将关联规则的发现 分为两步. 第一步是识别所有的频繁项目集,即支持度不低于用户最低支持度的项目集. 第二步是从频繁 集中构造其自信度不低于用户最低自信度的规则. 所以,关联规则中兴趣度量是用支持度与自信度度量的 [3][4]. 相关分析是指项目集或规则的相关性分析,项目集中各项目是统计相关还是独立,规则两边项目集是 统计相关还是独立[5]. 2.2 分类发现: 分类在数据挖掘中是—项应用极其广泛的重要的任务,例如,利用当前病历数据可以建立各种疾病的 分类规则,对于新来的病人,根据其症状及分类规则就可以知道此人所患病的种类;在商业上分类可用于 销售目标定位、客户分类、信用分析、保险风险判定、电子商务等. 除此以外,分类还被广泛应用于故障 诊断、图象处理等领域. 分类是用一个函数把各个数据映射到某个预定义的类,或者说是开采出关于该类 数据的描述或模型. 分类方法有决策树分类方法

文档评论(0)

cnsg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档