《大数据应用基础》模块四 大数据集采集技术 教学课件.pptxVIP

《大数据应用基础》模块四 大数据集采集技术 教学课件.pptx

  1. 1、本文档共179页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

模块四大数据采集技术《大数据技术基础》北京出版社主编:张兵

目录模块四大数据采集技术任务一初识大数据采集技术 任务二采集网络数据任务三Scrapy框架与应用任务四存储与读取数据

任务一初识大数据采集技术

任务导入近年来,以大数据、物联网、人工智能、5G为核心特征的数字化浪潮正席卷全球。随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。例如新冠疫情信息数据的更新速度也是在逐步的加快。自2020年春节,新型冠状病毒在全球持续爆发。据国家卫健委官网消息:2022年2月27日0-24时,31个省(自治区、直辖市)和新疆生产建设兵团报告新增确诊病例234例。本任务是认识大数据采集概念,总结大数据采集的数据类型,找出采集数据的工具和方法。任务一初识大数据采集技术

任务目标1.能描述大数据采集概念。2.能概括大数据采集的数据类型。3.能概括大数据采集的工具和方法。4.提升大数据安全应用能力,共筑平安中国。任务一初识大数据采集技术

任务分析123任务一初识大数据采集技术通过网络、微课、课外读物等多方面的学习资源,自主查询大数据采集的相关概念,了解什么是数据采集、什么是大数据采集。基于对大数据采集概念的理解,通过小组合作的方式,针对大数据采集的例子,进一步讨论总结大数据采集的类型。大数据环境下的数据来源丰富多样,在数据来源不同的基础上,分析总结大数据采集的工具和方法。123

任务实施数据采集(DAQ,DataAcquisition)指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析,处理。大数据采集指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。任务一初识大数据采集技术1.大数据采集

任务实施2.大数据采集的类型、工具、方法任务一初识大数据采集技术数据采集类型结构化数据半结构化数据非结构化数据数据采集工具系统日志的采集:Hadoop的Chukwa、Cloudera的Flume网络数据采集:八爪鱼采集器,Excel数据采集方法传感器采集网络爬虫采集日志文件采集

知识链接数据采集概念任务一初识大数据采集技术产生数据纷繁复杂,变化多样研究和分析大数据,需要海量数据定义大数据采集是在确定目标用户的基础上,针对该范围内所有数据进行的采集

知识链接结构化数据传统的关系型数据库、可用二维表结构表示。非结构化数据半结构化数据各种文档、图片、视频/音频等。类似XML、HTML之类,由描述,数据结构和内容混杂在一起。数据类型任务一初识大数据采集技术

知识链接数据采集方法任务一初识大数据采集技术(1)传感器:采集物理世界信息无线传感器有线传感器

知识链接数据采集方法任务一初识大数据采集技术(2)网络爬虫:采集互联网数据信息WEB初始URL数据库已访问URL待访问URL初始化获取下一个URL下载网页提取网页的URL

知识链接数据采集方法任务一初识大数据采集技术(3)日志文件:采集数字设备运行状态用户和系统交互行为日志系统行为系统状态

知识链接数据采集工具任务一初识大数据采集技术大数据采集工具ChukwaFlume八爪鱼采集器HadoopCloudera某网络公司系统日志网络数据抓取MicrosoftExcelMicrosoft

知识拓展Flume日志采集流程,从整体上描述代理agent中sources、sinks、channels所涉及到的组件,也就是定义这个agent中各组件的名字。代码如下:任务一初识大数据采集技术Flume配置过程#Namethecomponentsonthisagenta1.sources=r1a1.sinks=k1a1.channels=c1

知识拓展代码如下:任务一初识大数据采集技术Flume配置过程#Describe/configurethesourcea1.sources.r1.type=netcata1.sources.r1.bind=localhosta1.sources.r1.port=44444#Describethesinka1.sinks.k1.type=loggera1.sinks.k1.type=logger#Useachannelwhichbufferseventsinmemorya1.channels.c1.type=memorya1.channels.c1.capacity=1000a1.channels.c1.transactionCapacity=100

知识拓展代码如下:任务一初识大数据采集技术Flume配置过程#Bindthesourceandsinktothechannela1.sources.r1.cha

您可能关注的文档

文档评论(0)

土豆 + 关注
实名认证
文档贡献者

~

1亿VIP精品文档

相关文档