大数据技术基础教学课件第二章-大数据技术基础知识.pptx

大数据技术基础教学课件第二章-大数据技术基础知识.pptx

  1. 1、本文档共149页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 大数据技术基础知识;本章目录;;面对数据量更大、数据类型更多的数据处理需求,传统的数据处理平台无法进行高效地处理。 以MapReduce和HDFS作为核心组件的Hadoop生态系统提供了一系列专为大数据解决方案的开发、部署和支持而创建的工具和技术。 ;2.1.1 利用HDFS存储数据;2.1.1 利用HDFS存储数据;;;2.1.2 利用MapReduce处理数据;2.1.3 利用Hadoop YARN管理资源和应用;2.1.4 利用Hbase存储数据;2.1.5 利用Hive查询大型数据库;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.7 Kafka简介;Kafka的主要特点 ①Kafka可以同时为消息的发布与订阅提供足够高的吞吐量。Kafka每秒可以产生约25万条消息(约50 MB),每秒处理55万条消息(约110 MB)。 ②Kafka可对数据进行持久化操作。Kafka将消息持久化到磁盘中后可用于批量消费,例如ETL,以及实时应用程序。将数据持久化到硬盘以及replication还可以防止数据丢失。 ③Kafka是分布式的,因此具有更好的扩展性。所有的producer、broker和consumer都会有多个,均为分布式的。在扩展机器时无需停机即可操作。 ④消息被处理的状态由consumer端维护,而非server端。当任务失败时能自动平衡,并且Kafka可以同时支持online和offline的场景。 ;Kafka的架构 ①Topic:特指Kafka处理的消息源(feeds of messages)的不同分类。 ②Partition:Topic在物理上的分组,一个topic可以被分为多个partition,每个partition都是一个有序的队列,即partition中的每条消息都会被分配一个有序的id(offset)。 ③Message:消息,通信的基本单位,每个producer可以向一个topic发布消息。 ④Producer:发送消息的过程。消息和数据生产者向Kafka的一个topic发布消息的过程叫做producer。 ⑤Consumer:订阅消息的过程。消息和数据消费者订阅topics并处理其发布的消息的过程叫做consumer。 ⑥Broker:缓存代理,Kafka集群中的一台或多台服务器统称为broker。 ;Kafka的应用场景 Kafka的主要应用场景有如下几个: ①消息队列。由于Kafka的吞吐量和容错性比大多数的消息系统相比更好,因此Kafka成为了一个很好的大规模消息处???应用的解决方案。 ②行为跟踪。Kafka的另一个应用场景是跟踪用户行为,如:浏览页面、搜索等,以发布-订阅的模式实时记录到对应的topic里。 ③元信息监控。Kafka可以对操作进行监控,作为监控模块来记录操作信息,即为运维性质的数据监控。 ④日志收集。有诸多开源产品都可以进行日志收集,如:Scribe、Apache Flume。Kafka可以用来代替日志聚合(log aggregation)的功能。;Kafka的应用场景 Kafka的主要应用场景有如下几个: ⑤流处理。Kafka进行流处理的应用场景较多,流处理即收集并保存流数据,以提供给之后对接的Storm或其他流式计算框架进行处理。 ⑥事件源。事件源是一种应用程序设计的方式,该方式的状态转移被记录为按时间顺序排序的时间序列。因为Kafka可以对大量的日志数据进行存储,因此适合此类应用。 ⑦持久性日志。Kafka可以为外部的持久性日志的分布式系统提供服务。这种日志可以在节点间备份数据,并为故障节点数据回复提供重新同步的机制。 ;;Linux是一个提供了完整的底层硬件控制与资源管理架构的操作系统,支持多用户、多任务、多线程和多CPU。Linux系统由如下几个部分组成:Linux内核(Linus 团队管理)、Shell(用户与内核交互的接口)、文件系统(ext3、ext4等)、第三方应用软件。 Linux是开源免费的,用户可以根据自己的需求修改Linux内核程序,并将其移植到各种计算机设备中使用。;2.2 Linux简介;Linux系统目录结构 在Windows下会有基本的目录结构,Linux下也不例外,同样有基本的目录结构,如图: ;Linux的文件权限 Linux是一种支持多用户的操作系统。为了保证系统的安全性,Linux对用户访问文件的权限进行了区分。从文件角度来讲,每一个文件都有一个拥有者,拥有

文档评论(0)

139****2545 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档