第8章-大数据采集.pptxVIP

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第8章大数据采集;;8.1.1Sqoop简介;8.1.1Sqoop简介;2、Sqoop版本

目前有sqoop1和sqoop2两代版本,两代版本完全不同,且不兼容。

sqoop1:1.4.x

sqoop2:1.99.x

sqoop2比sqoop1的改进主要有:

(1)引入sqoopserver,集中化管理connector等;

(2)多种访问方式:CLI,WebUI,RESTAPI;

(3)引入基于角色的安全机制。;功能;功能;3、Sqoop架构

Sqoop2架构相对简单,主要由三个部分组成:Sqoopclient、HDFS/HBase/Hive、Database。Sqoop2的架构图如下图8-3所示。;8.1.2Flume简介;2、Flume的优势

(1)Flume可以将应用产生的数据存储到HDFS,HBase等集中存储器中。

(2)当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供平稳的数据。

(3)提供上下文路由特征。

(4)Flume的管道基于事务,保证了数据在传送和接收时的一致性。

(5)Flume是可靠的,容错性高的,可升级的,易管理的,并且可定制的。;3、Flume的结构

如下图8-4所示,Flume将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流,在具体数据流中,数据源支持在Flume中定制数据发送方,支持收集各种不同协议数据。同时,Flume提供对数据的简单处理,比如过滤,格式转换等。此外,Flume还可将数据写往各种数据目标。;由上图可知,Flume内部包括一个或者多个Agent,然而对于每一个Agent来说,它就是一个独立的守护进程(JVM),它从客户端接收数据,或者从其他的Agent那接收,然后迅速的将获取的数据传给下一个目的节点sink或者agent。

在Flume中,Flume运行的核心是Agent。Flume以agent为最小的独立运行单位。每个agent中有三个核心组件:Source,Channel和Sink。外部输入称为Source(源),系统输出称为Sink(接收器),在Source和Sink之间传递事件的一个临时存储区,称为Channel(通道)。Agent的数据流模型如下图8-5所示。;(1)Source:

Source是数据的收集器,负责将数据捕获后进行特殊的格式化,将数据封装到事件(event)里,然后将事件推入Channel中。Flume提供了很多内置的Source,支持Avro,log4j,syslog和httppost(body为json格式),可以让应用程序同已有的Source直接???交道,如AvroSource,SyslogTcpSource。如果内置的Source无法满足需要,Flume还支持自定义Source。Source源类型如下表8-2所示。;表8-2Source源类型;表8-2Source源类型;(2)Channel:

Channel是连接Source和Sink的组件,大家可以将它看做一个数据的缓冲区(数据队列),它可以将事件暂存到内存中也可以持久化到本地磁盘上,直到Sink处理完该事件。它在source和sink间起着一座桥梁的作用,channal是一个完整的事务,这一点保证了数据在收发的时候的一致性.并且它可以和任意数量的source和sink进行链接。支持的类型有:JDBCchannel,FileSystemchannel,Memortchannel等,如下表8-3所示。;表8-3Channel支持类型;(3)Sink:

Sink将数据存储到集中存储器比如Hbase和HDFS,它从channals消费数据(events)并将其传递给目标地,目标地可能是另一个sink,也可能HDFS,HBase。Sink支持类型如下表8-4所示。;表8-4Sink支持类型;表8-4Sink支持类型;除了以上Flume组件,接下来简单介绍下Flume的插件。

(1)Interceptors拦截器

用于source和channel之间,用来更改或者检查Flume的events数据。

(2)管道选择器channelsSelectors

;多管道是被用来选择使用哪一条管道来传递数据(events),管道选择器又分为如下两种:

①默认管道选择器,每一个管道传递的都是相同的events。

②多路复用通道选择器,依据每一个event的头部header的地址选择管道。

(3)sink线程

用于激活被选择的sinks群中特定的sink,用

您可能关注的文档

文档评论(0)

a105776456 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档