数据科学导论教学课件(共8章)-第4章大数据采集与预处理.pptxVIP

数据科学导论教学课件(共8章)-第4章大数据采集与预处理.pptx

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
普通高等教育人工智能与大数据系列数据科学论导Chapter 4大数据采集与预处理020301采集与预处理概述目录大数据采集方法CONTENTS大数据预处理方法数据源与数据采集方法的关系数据中存在的问题一些期望的数据或状态没有采集进来,如生产环境中的设备状态数据没有按预期的每5秒采集一次数据,而是缺失了一段时间的状态数据。半结构化、非结构化数据众多,难以进行有效分析。①不正确:包含不正确的数据,也称为噪声数据,导致的原因包括输入错误、缺省值掩饰的缺失数据、数据传输错误等;②不完整:缺少属性值或仅仅包含聚集数据,导致的原因包括:重要信息无法获取、输入遗漏或缺失、数据修改或删除等;③不一致:用于商品分类的部门编码存在差异或数据修改、删除导致的其它数据不一致。有用的信息被淹没在庞大的数据集中,难以发现数据的价值。13原始数据是“脏”的重复或无关数据太多数据集不完整数据异源、异构42数据预处理概述预处理是大数据分析的必要基础,也是提升数据挖掘效率及结果准确性的重要保障。网络数据采集之爬虫传统网络爬虫从一个或若干个初始网页的URL开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足设置的停止条件为止;聚焦爬虫则进一步过滤与主题无关的链接,并在选择下一步要抓取的网页URL时设定特定的搜索策略。from urllib2 import urlopenfrom bs4 import BeautifulSouphtml = urlopen()bsObj = BeautifulSoup(html.read())print bsObj.titleICT平台数据采集之FlumeFlume是Cloudera于2009年7月开源的日志系统,后成为Apache基金会的顶级项目。Flume是一个分布式高性能、高可靠、高可用的数据传输工具,简单但高效,用于从许多不同的数据源收集、聚合和移动大量日志数据到一个或多个数据中心进行存储,如HDFS。Flume的组件Channel(管道)负责缓存从Source端传过来的数据,直到数据被Sink消费,断网时数据也不会丢失。Channel可以是内存、文件或JDBC等。Channel为内存时,性能高但不持久,且有可能存在数据丢失;使用文件时,会讲数据保存到文件系统中,这种方式更可靠,但性能不高。010302Source(数据源)负责从外部源(如Web服务器)接收输入数据,并将数据写入管道。Sink(数据汇)负责从Channel中读取数据并发给下一个Agent的Source中或外部存储系统,可以为HDFS,HBASE,Solr,ElasticSearch,File,Logger、Avro、Thrift、File或其它的Flume Agent。ICT平台数据采集之Kafka(1)Kafka是LinkedIn公司于2010年12月开源的项目,在2011年加入Apache并在次年成为Apache的顶级项目。Kafka具有如下三个关键功能。1)发布和订阅记录流,类似于消息队列或企业消息传递系统。2)以容错、持久的方式存储记录流。3)记录流发生时处理。Kafka是一个高吞吐量的、持久性的、支持数据流实时处理的分布式发布订阅消息系统,其应用场景主要有两大类:①构建可在系统或应用程序之间可靠获取数据的实时流数据管道;②构建转换或响应数据流的实时流应用程序。从严格意义上来说,Kafka并不是一种系统日志采集工具,只有当产生日志的数据源可以配置成为消息生产者时,方可使用Kafka采集数据。ICT平台数据采集之Kafka(2)Kafka体系结构包括生产者(Producers)、消费者(Consumers)、连接器(Connectors)、流处理器(Stream Processors)和Kafka集群(Kafka Cluster)五部分,如图4-6所示,其中,Kafka集群由多个服务节点组成,每个节点称为一个Broker(消息代理),在Broker上,消息以Topic(主题)的方式组织,每个Topic被分成1个或多个partition(分区)进行存储,分区越多意味着能服务越多的消费者,Broker之间的协作由Zookeeper进行协调;生产者将消息发送到Kafka集群的某个Topic上,使用压(push)模式;消费者从Kafka集群订阅并消费消息,使用拉(pull)模式,并保存消费消息的具体位置,当消费者宕机后恢复上线时可根据之前保存的消费消息位置重新拉取需要的消息进行消费,从而保证消息不会丢失。ICT平台数据采集之Kafka(3)构建Kafka应用的时候,首先需安装并配置Kafka集群,接下来根据业务需要创建相应的Topics,然后使用生产者API开发生产者客户端往Topics写入消息,再使用消费者AP

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档