- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘与统计理论 .doc
2006 年第 1 期
(总第 51 期)
漳州师范学院学报(自然科学版)
Journal of Zhangzhou Teachers College(Nat. Sci.)
No. 1. 2006 年
General No. 51
文章编号:1008-7826(2006)01-0023-04
数据挖掘与统计理论
周忠眉
(漳州师范学院 计算机科学系, 福建 漳州 363000)
摘 要: 随着数据库技术的不断发展和数据库系统的广泛应用,数据库中存储的数据量急剧增大,迫切需要
新的计算理论和工具帮助人们从大量信息中抽取有用信息,即知识,数据挖掘学科的诞生正是适应这一需要. 传 统数据分析工具数理统计无疑在这一学科中扮演着重要角色,阐述数据挖掘的主要任务及统计理论在各任务中的 应用,旨在更好结合统计理论探讨数据挖掘,更好发挥数理统计理论在数据挖掘中的作用.
关键词: 数据挖掘 ; 统计 ; 模型
中图分类号:
文献标示码:
TP274
A
1 数据挖掘与数理统计关系
随着数据库技术的不断发展和数据库系统的广泛应用,数据库中存储的数据量急剧增大,让我们来看
一些身边俯拾即是的现象:《纽约时报》由 60 年代的 10~20 版扩张至现在的 100~200 版,最高增达 1572 版;《北京青年报》也已是 16~40 版;市场营销报已达 100 版. 然而在现实社会中,人均日阅读时间通常 为 30~45 分钟,只能浏览一份 24 版的报纸. 大量信息在给人们带来方便的同时也带来了一大堆问题:第
一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,
难以统一处理. “如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”,面对这一
挑战,数据挖掘应运而生. 数据挖掘是指在数据中发现有效的、新颖的、潜在有用的、最终可理解的模式. 为了从大数据库低层数据中抽取高层知识,数据挖掘利用其他学科知识:机器学习、模式识别、数据库、 统计理论、人工智能、专家系统中的知识获取、数据可视化,高性能计算等[1][2]. 数理统计与数据挖掘有何 不同?数据挖掘注重知识发现的整个过程,包括数据的如何存储与访问,算法如何扩展以有效适合大数据 量,结果如何被解释与可视化,如何支持人机交互;而统计关心的是统计模型有效性的数学理论依据,数 理统计理论在数据挖掘各任务中有广泛应用. 为了更好发挥统计理论在数据挖掘中作用,本文阐述数据挖 掘的主要任务,举例说明统计理论在各任务中的应用.
2 数据挖掘主要任务
2.1 关联规则发现与相关分析:
关联规则是如下形式的一种规则:“在购买面包和黄油的顾客中,有 90%的人同时也买了牛奶”. 关 联性分析广泛应用于交易数据分析,通过分析结果来指导销售、目录设计及其它市场决策的制定. 对于关 联规则问题的研究最早由 R.Agrawal 等提出[3],其目的是要在交易数据库中发现各项目之间的关系. 随着 条形码技术的发展,零售企业交易数据库中存储了大量的售货数据. 利用关联规则发现技术对这些历史事 务数据进行分析,就可对顾客的购买行为提供极有价值的信息. 例如,可以帮助如何摆放货架上的商品(如
收稿日期:2005-10-27
基金项目:福建省教育厅科研基金资助项目(JA04248) 作者简介:周忠眉(1965-), 女, 浙江温州市人, 副教授, 博士生.
把顾客经常同时买的商品放在一起),帮助如何规划市场(怎样相互搭配进货),实施促销计划(对相关联产品
中低价产品进行让利来促进高价产品的销售). 从事务数据中发现关联规则,对于改进零售业等商业活动的 决策非常重要.
最著名、最重要的关联规则发现算法是 R.Agrawal 等人提出的 Apriori 算法. 该算法将关联规则的发现 分为两步. 第一步是识别所有的频繁项目集,即支持度不低于用户最低支持度的项目集. 第二步是从频繁 集中构造其自信度不低于用户最低自信度的规则. 所以,关联规则中兴趣度量是用支持度与自信度度量的
[3][4].
相关分析是指项目集或规则的相关性分析,项目集中各项目是统计相关还是独立,规则两边项目集是 统计相关还是独立[5].
2.2 分类发现:
分类在数据挖掘中是—项应用极其广泛的重要的任务,例如,利用当前病历数据可以建立各种疾病的 分类规则,对于新来的病人,根据其症状及分类规则就可以知道此人所患病的种类;在商业上分类可用于 销售目标定位、客户分类、信用分析、保险风险判定、电子商务等. 除此以外,分类还被广泛应用于故障 诊断、图象处理等领域. 分类是用一个函数把各个数据映射到某个预定义的类,或者说是开采出关于该类 数据的描述或模型. 分类方法有决策树分类方法
您可能关注的文档
最近下载
- 第18章中国传媒业的新生态、新业态《网络与新媒体概论》教学课件.ppt VIP
- 三相桥式可控整流电路设计..doc
- 第17章互联网与网民素养《网络与新媒体概论》教学课件.ppt VIP
- 第14章互联网与精准营销《网络与新媒体概论》教学课件.ppt VIP
- 《典型灾害应急实训》课程大纲(本科).docx VIP
- 第12章互联网与社会思潮《网络与新媒体概论》教学课件.ppt VIP
- 护士N2晋级N3述职报告PPT.pptx
- 《人力资源规划HRP》课件.pptx VIP
- 第9章互联网与民主政治建设《网络与新媒体概论》教学课件.pptx VIP
- (新版)高级考评员职业技能鉴定考试题库(含答案).docx
文档评论(0)