- 1、本文档共534页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
HADOOP大数据开发实例教程
本课件是可编辑的正常PPT课件
计
大数据生态系统
Hadoop的安装与基本配置
Hadoop文件系统
基于Shell和JavaAPI操作HDFS
MapReduce和YARN技术
目录
Contents
01
02
03
04
03
本课件是可编辑的正常PPT课件
06分布式数据仓库——Hive技术
目录
Contents
07分布式协调服务——ZooKeeper技术
08分布式数据库——HBase技术
09Hadoop中的数据迁移工具——Sqoop技术
10Spark的安装与基础应用
本课件是可编辑的正常PPT课件
大数据生态系统
1.1了解大数据
1.2Hadoop简介
1.3实训1收集Hadoop相关案例
本课件是可编辑的正常PPT课件
大数据生态系统
本模块从了解大数据(bigdata)入手,简明扼要地叙述大数据的产生、大数据的概念、大数据的“4V”特征、大数据应用案例,展示物联网(产生数据)、云计算(承载数据)、大数据(挖掘数据)和人工智能(学习数据)相辅相成、彼此依附和相互助力的关系,再通过对Hadoop的层层“揭秘”来认识Hadoop和它的核心组件及其常用的其他组件。
1了解大数据(产生、概念、特征)及“物、云、大、智”之间的关系
了解Hadoop的应用案例
了解及认识Hadoop和它的核心组件
4了解MapReduce作业的运行方式本课千是可编辑的正常PPT课件
1.1了解大数据
被誉为“大数据之父”的维克托·迈尔-舍恩伯格曾提到“世界的本质就是大数据”,当今社会生活中到处都是数据。不仅如此,在人人互联的廉价存储时代,我们收集的数据的性质也在发生变化。对于许多企业而言,它们的关键数据曾经仅限于其业务数据库和数据文件。在这些类型的系统中,数据被组织成有序的行和列,其中信息的每个字节在其性质和业务价值方面都易于管理和理解。当今这些数据和数据库仍然非常重要,但是应用的数据类型和数据处理方式发生了翻天覆地的变化,大数据悄然而至,让我们一起揭开大数据的神秘面纱。
本课件是可编辑的正常PPT课件
1.1了解大数据
1.1.1大数据的产生
大数据的产生可追溯至1887年。1887—1890年,美国统计学家赫尔曼·霍尔瑞斯为
了统计1890年的人口普查数据,发明了一台电动器来读取卡片上的洞数,该设备让美国用1年时间就完成了原本需耗时8年的人口普查活动,由此在全球范围内引发了数据处理
的新纪元。
社交网络、电子商务等互联网应用成为新的数据来源,传感器、二维码、无线射频识别(radiofrequencyidentification,RFID)、位置信息等物联网应用成为新的数据采集方法,全时空数据的可采集性应用,智能算法的使用,非结构的数据形态飞速增加,数据获取成本、存储成本和处理成本的下降,所有因素都推动了数据量的爆炸式膨胀。
数据大爆炸和数据结构的变化为数据处理带来新的挑战,人类正从信息技术
(informationtechnology,IT)时代走向数据技术(datatechnology,DT)时代。
本课件是可编辑的正常PPT课件
大数据可一拆为二来看,就是“大”和“数据”。
1.1了解大数据
在计算机科学中,数据是指所有能输入计算机并被计算机程序处理的符号介质的
总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的统称。计算机存储和处理的对象十分广泛,表示这些对象的数据也随之变得越来越复杂。例如,应用下载记录、语音通话记录、淘宝“双11”新订单记录等都为数据,有些是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理,这种称为结构化数据。与之相对的是有些数据则“杂乱无章”或部分有序,不适于由数据库二维表来表现,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等,这种称为非结构化或半结构化数据。
对于大数据,研究机构Gartner给出了定义:大数据是需要新处理模式才能具有更强的
决策力、洞察发现力程花缩能的的海课离增长率和多样化的信息资产。
1.1了解大数据
1.1.2大数据的概念
何为数据?
1.1了解大数据
1.1.3大数据的特征
(1)数据体量巨大(volume)
(2)数据类型繁多(variety)
(3)处理速度快(velocity)
(4)价值密度低(value)
大数据的
文档评论(0)