财务大数据分析 课件 项目二 大数据采集、清洗与集成.pptx

财务大数据分析 课件 项目二 大数据采集、清洗与集成.pptx

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;;;;;任务一数据采集;;(二)数据采集的三大要点

1.全面性

数据量足够具有分析价值、数据面足够支撑分析需求。比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户ID,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

2.多维性

数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。

3.高效性

高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。

;(三)数据采集准备

1.明确数据驱动目标

带数据采集切忌大而全,数据分析需求也是随着产品不断迭代的,明确长远和当前阶段的分析需求,让分析更有目的性,技术执行更高效。

2.按需采集数据

带着需求和分析目标去采数据,不只避免了数据冗余带来的无从下手,也避免了全量采集以后殊不知道要分析什么的尴尬。

3.选择数据采集的工具和手段

为了高效采集大数据,依据采集环境及数据类型选择适当的大数据采集方法及平台至关重要。

(四)数据采集工具

常用的大数据采集平台和工具有:

;;二、网络爬虫简介

(一)什么是网络爬虫?

网络爬虫(webcrawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其早期目的一般为编纂网络索引。之后广泛应用在数据采集、信息监控等领域。简单来说,网络爬虫就是获取网页并提取和保存信息的自动化程序。

某些信息散布在多个网站、页面里,为了提取它们,我们可编写网络爬虫程序或使用具有网络爬虫功能的工具,实现规模化、自动化的数据采集。;(二)网络爬虫的几个基本术语

1.URL(UniformResourceLocator)

统?资源定位符,?叫URL(UniformResourceLocator),是专为标识Internet?上资源位置?设置的?种编址?式,我们平时所说的?页地址指的即是URL。

2.客户端(Client)

客户端(Client)或称为用户端,是指与服务器相对应,为客户提供本地服务的程序。主要功能是请求访问文本或图像等资源。其行为过程是根据目标URL,编制请求报文并发送,并获取资源。

3.web服务器(webserver)

Web服务器一般指网站服务器,是指驻留于因特网上某种类型计算机的程序,可以向浏览器等Web客户端提供文档,也可以放置网站文件,让全世界浏览;可以放置数据文件,让全世界下载。主要功能是提供资源响应。其行为过程是接收请求,按照既定规则返回相应文件资源。

;;;;;。;;;步骤三:点击【查看数据源】,可以看到“折扣”列有的值为“-”,有的值为空,如图所示。

;步骤四:点击“配置全局规则”,左侧出现“配置全局清洗规则”区,选择“字符替换”下的“-(仅有)替换为Null”和“空格(仅有)替换为Null”,如图所示。;步骤五:此处也可以选择“-(仅有)替换为0”和“空格(仅有)替换为0”。点击“开始清洗”,系统弹出“确定要开始清洗吗”,点击【确定】,如图所示。;;;步骤二:点击“添加规则”,选择“字段切分”,弹出“选择字段”窗口,将“客户ID”移到右侧,如图所示。;;步骤四:点击【保存】,保存规则,之后点击“开始清洗”,系统自动按清洗规则执行清洗任务,清洗完毕,点击“查看数据”,可以看到原“客户ID”列,变为“客户名称”和“客户ID”两列,如图所示。;3.字段拆分(产品名称)

将“产品名称”列切分为三列“品牌”、“品名”、“规格”。

在字段拆分前,需要将“产品名称”列中的切分符统一,需要将现有字段中的特殊字符进行逐一的替换,最终替换为统一的切分符。其替换步骤见下图。;步骤一:

字段里的非法字符和分隔符统一

点击“任务∶受欢迎商品分析-产品名称切分”,点击【开始任务】,进入数据清洗页面,点击“选择数据源”,下拉选择“超市销售数据”(注∶也可以将上一步清洗后的结果在此处上传),点击【保存】,如图所示。;;;点击【下载】,将该清洗结果下载到本地。

步骤二:将“产品名称”切分为两列为“品牌”和“品名规格”。点击退回,回到数据清洗页面,如图所示。;点击【重置】,重新选择数据源,点击【上传数据】,将上一步下载的数据表进行上传,如图所示。;点击“配置字段清洗规则”,点击“添加规则”,选择“字段切分”,切分字段为“产品名称”,切分分隔符为空格(按空格键输入),切分后的字段分别为“品牌”、“品名规格”。如图所示。;点击【保存】,点击“开

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档