- 1、本文档共112页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第二章大数据获取和预处理2.1大数据获取和预处理概述2.2大数据获取方法2.3数据预处理技术《数据科学与大数据技术导论》of1091
of10922.1大数据获取和预处理概述第二章大数据获取和预处理2.1.1数据的来源2.1.2数据质量概述2.1.3数据预处理概述
of10932.1.1数据的来源第二章大数据获取和预处理系统日志数据来自于WEB服务器日志、企业ERP系统、各种POS终端及网上支付等业务系统数据互联网数据用户通过网络所留下的痕迹(如浏览网页、发送邮件等)互联网运营商在日常运营中生成和累积的用户网络行为数据物联网数据如来自传感器、量表和其他设施的数据、定位系统数据等各种信息系统数据存储在关系型数据库或非关系型数据库中的数据
of10942.1.1数据的来源第二章大数据获取和预处理互联网每天产生的全部内容可以刻满6.4亿张DVDGoogle每天需要处理24PB的数据网民每天在Facebook上要花费234亿分钟,被移动互联网使用者发送和接收的数据高达44PB全球每秒发送290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不停地读5.5年每天会有2.88万个小时的视频上传到YouTube,足够一个人昼夜不停地观看3年Twitter上每天发布5000万条消息,假设10秒就浏览一条消息,足够一个人昼夜不停地浏览16年互联网数据
of10952.1.2数据质量概述第二章大数据获取和预处理数据质量的评估标准完整性准确性一致性及时性数据记录和信息是否完整,是否存在缺失的状况数据中记录的信息和数据是否准确,是否存在异常或错误存储在不同系统中的同一个数据,是否存在差异或相互矛盾保障数据能够及时产出,这样才能体现数据的价值
of10962.1.3数据预处理第二章大数据获取和预处理数据清洗对数据进行重新审查和校验的过程数据集成将来自多个数据源数据整合归纳在一起形成一个统一的数据集合数据规约降低数据规模,但仍大致保持原数据的完整性数据变换对数据进行转换或归并,从而构成一个适合数据处理的形式数据预处理的主要流程
第二章大数据获取和预处理2.2大数据获取方法2.1大数据获取和预处理概述2.3数据预处理技术《数据科学与大数据技术导论》of1097
of10982.2大数据获取方法第二章大数据获取和预处理1分布式日志采集网络系统中,各式各样的服务产生的各种日志文件的采集2网络爬虫自动在互联网中进行数据信息的采集与整理3其他获取方法APP应用获取传感器设备获取应用系统获取
of10992.2.1分布式日志采集第二章大数据获取和预处理1.分布式采集流程(1)分布式日志采集与分析的主要流程日志采集组件将日志以消息的方式通过数据管道发送到日志分析组件,并最终生成存储文件。
of109102.2.1分布式日志采集第二章大数据获取和预处理这一流程可以想象为教师评判作业的过程
of109112.2.1分布式日志采集第二章大数据获取和预处理(2)分布式日志采集流程中的主要部分及功能采集组件离线采集和在线采集数据管道连接采集组件及日志分析组件的数据通道日志处理将非结构化的日志记录转化为结构化的易于存储和检索的日志信息存储与检索日志收集后进行存储并提供检索与分析功能
of109122.2.1分布式日志采集第二章大数据获取和预处理2.日志采集关键技术(1)日志采集模式一般的日志采集可以分为两种模式:推模式和拉模式推模式由Agent主动的向目的端发送日志,目的端在接收到日志之后将数据存储起来拉模式由Master主动发起日志获取动作,然后在各个Agent上将日志拉到Master节点
of109132.2.1分布式日志采集第二章大数据获取和预处理2.日志采集关键技术(2)消息队列传递模式采用异步通信降低应用耦合,保证消息的顺序性、可靠性。主要有两种消息传递模式:点对点传递模式、发布-订阅模式。
of109142.2.1分布式日志采集第二章大数据获取和预处理点对点消息传递模式(一对一)消息生产者将消息发送到一个队列中,此时,将有一个或多个消费者消费队列中的消息。但是一个消息只能被消费一次。当一个消费者消费了队列中的某个消息之后,该消息将从消息队列中删除。Consumes1Consumes2……ConsumesmProducer1Producer2……ProducernMSGMSGQueue
of109152.2.1分布式日志采集第二章大数据获取和预处理发布-订阅消息传递模式在发布-订阅模式中,消息生产者将消息发布到一个Topic中,消费者可以订阅一个或多个Topic,同一个消息也可以被多个消费者消费,消息被消费后不会立即删除。Subscriber1Subscriber2……Su
您可能关注的文档
- 01常用印刷字号对照图.pdf
- 1 UI设计基础知识.pptx
- 1 母板设计与制作.pptx
- 1 网络安全概述.pptx
- 1、计算机组成原理概述.pptx
- 1.1 计算机基础知识.pptx
- 1.1 人工智能的起源.pptx
- 1.1 现代教育技术概述.pptx
- 1.2 人工智能的概念.pptx
- 1.2 现代教育技术基本理论.pptx
- 英语人教PEP版八年级(上册)Unit4+writing+写作.pptx
- 人美版美术四年级(上册)8 笔的世界 课件 (1).pptx
- 人美版美术七年级(上册)龙的制作.pptx
- 英语人教PEP版六年级(上册)Unit 2 第一课时.pptx
- 数学苏教版三年级(上册)3.3 长方形和正方形周长的计算 苏教版(共12张PPT).pptx
- 音乐人教版八年级(上册)青春舞曲 课件2.pptx
- 音乐人教版四年级(上册) 第一单元 音乐知识 附点四分音符|人教版.pptx
- 英语人教PEP版四年级(上册)Unit 6 Part B let's learn 1.pptx
- 道德与法治人教版二年级(上册)课件-3.11大家排好队部编版(共18张PPT).pptx
- 人美版美术七年级(上册)《黄山天下奇》课件1.pptx
文档评论(0)