大数据挖掘导论与案例课件-第1章 绪论.pptx

大数据挖掘导论与案例课件-第1章 绪论.pptx

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第1章绪论第2章数据分析与可视化技术第3章认识数据第4章数据预处理第5章分类概念与方法第6章关联分析概念与方法第7章聚类分析概念与方法第8章大数据挖掘关键技术第9章案例分析

第1章绪论大数据挖掘导论与案例

学习目标/Target了解大数据的概念与特征,了解大数据挖掘的过程模型了解大数据挖掘的工具与技术,了解大数据挖掘的应用了解数据科学的产生与兴起,了解数据科学工作者应具备的基础和技能

引言/Introduction国际权威机构Statista的统计和预测显示,2019年全球数据量达到41ZB,2020年达到47ZB,2025则增长到175ZB,而到2035年,这一数字将达到2142ZB。大数据已持续引起人们生活、工作和思维模式的大变革。人们的注意力已转移到寻找大数据使用的真正价值上。数据的爆炸式增长,对数据技术提出了更高的要求。

目录/Contents010203数据科学和数据科学家大数据的概念和特征大数据的主要来源0405大数据挖掘的概念和流程数据挖掘的主要任务

目录/Contents0607大数据挖掘的工具与技术大数据挖掘的应用

数据科学与数据科学家1.1

1.1.1数据科学的产生和数据科学家的兴起1962年,美国数学家JohnW.Tukey在《数理统计年鉴》上发表题为“数据分析的未来”的论文,为未来数据科学的发展奠定了基础。1966年,丹麦计算机科学家PeterNaur发明了“数据学(Datalogy)”。1974年出版《计算机方法简明概述》,首次使用“数据科学”一词,将数据科学定义为“处理数据的科学”。1977年,JohnW.Tukey出版著作《探索性数据分析》,提出:探索性数据分析和论证性数据分析能够且应该并驾齐驱。1989年,GregoryPiatetsky-Shapiro提出“知识发现”和“数据挖掘”,组织并主持了第一届“数据库中知识发现(KnowledgeDiscoveryinDatabases,KDD)”研讨会。数据科学

1.1.1数据科学的产生和数据科学家的兴起1991年,Piatetsky-Shapiro和Frawley等人出版论文合集《数据库中的知识发现》。1993年,JohnChambers发表了题为“GreaterorLesserStatistics:AChoiceforFutureResearch”的论文,呼吁统计学领域对传统统计学进行改革。文中指出传统统计学在未来的研究中将面临两种选择:(1)“更专有(Lesser)”。以数学技巧为主导,专注于传统课题和数学本身,以学术研究为主,与其他相关学科交流较少;(2)“更包容”(Greater)。从数据中学习,兼收并蓄,以应用为主,与其他相关学科交流频繁。Chambers指出更包容虽然充满挑战,但会带来更多的机遇;而更专有则有可能使传统统计学研究变得越来越边缘化。Chambers呼吁要打破传统统计学的边界,更多地专注于数据本身,正视数据分析本质上是一种基于经验的科学。数据科学

1.1.1数据科学的产生和数据科学家的兴起1989年至1994年召开4次KDD国际研讨会。1995年,数据挖掘界举办第一届“知识发现与数据挖掘”国际学术会议。1996年,国际分类协会联盟在日本神户召开的第5次国际会议上,首次正式使用“数据科学”术语,并将其纳入会议标题。会后出版会议论文选集《数据科学,分类和相关方法》,涵盖了不断发展的数据科学领域中出现的广泛主题和观点,包括与数据收集、分类、聚类、探索性和多元数据分析,以及发现和寻求知识有关的领域的理论和方法方面的进步。同年,UsamaM.Fayyad、GregoryPiatetsky-Shapiro、PadhraicSmyth和RamasamyUthurusamy出版《知识发现与数据挖掘的进展》,汇集了知识发现和数据挖掘的研究成果。数据科学

1.1.1数据科学的产生和数据科学家的兴起1997年,应用统计学家C.F.JeffWu在“统计学=数据科学?(Statistics=DataScience?)”的演讲中,将当时定义的“统计学工作内容”描述为:数据收集、数据建模与分析、洞察与决策三部曲,并提出了他对未来统计学发展方向的展望,呼吁将统计学重新命名为数据科学。1998年,ACM-SIGKDD成立,1999年以来一直组织SIGKDD国际会议。目前,SIGKDD是数据挖掘研究领域的顶级会议。2001年,美国统计学教授WilliamS.Cleveland在《国际统计评论》上发表文章“数据科学:一种拓展统计学技术领域的行动”,首次将数据科学作为一个单独的学科,并把数据科学定义为统计学领域扩展到以数据作为研究对象,与信息和计算机科

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档