- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
任课老师:
PTNT
目录
项目四
大数据+财报数据分析
项目七
大数据+费用分析
项目五
大数据+资金分析
项目六
大数据+销售分析
项目一大数据基础
项目三数据预处理
项且二数据获取
nsy
项目一
大数据基础
任务2数据库基础认知
任务1大数据基础认知
什么是大数据
一、数据与大数据
在目前高速发展的时代,科技发达、信息流通,大数据就
是这个时代的产物。所谓数据,就是用来描述事物的符号或代码。在计算机系统中,各种数字、文字、字母、符号、图形、图像、音频等都被统称为数据,而数据通过一定的手段加工就得到了我们平时所说的信息。
任务1大数据基础知识
在现实生活中,数据无处不在,例如,学生的学号、成绩、身份证号、快递单号等都包含了大量的数据。将数据整理成信息,可以分析出行、销售、生产等方向,从而达到最优组合。以天气为例,通过风速、湿度、云层的移动轨迹等数据进行分析,最终可以获得区域天气的相关信息,同时也可以较为精准地预测未来一定时间内的天气情况,这就是大数据时代最初的展现。所以,人们是通过数据来得到信息,从而认识世界的。
大数据(bigdata或megadata),或称为巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产,是大的数据量与现代信息技术环境相结合涌现的结果。换而言之,它是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。
大数据通常是以多元的形式从许多来源搜集庞大数据
组,往往具有多样性。比如,在零售企业销售的数据库中,数据来源可能来自社交网络、电子商务网站、顾客来访记录等。例如天气的相关数据,要具有时效性,也就是及时性。除此之外,对于数据来说,最重要的一个特性就是准确性。
(一)大数据的起源
大数据源于互联网的发展。互联网运行产生了海量的
信息数据,互联网的快速发展创造了大数据应用的规模化环境,互联网企塑也开发了处理软件,相对应地,大数据计算技术完美地解决了海量数据的收集、存储、计算和分析的问题。
大数据以多元形式产生。数据并非单纯地指人们在互
联网中发布的信息。比如,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、湿度、温度乃至空气中化学物质的变化,同时也产生了海量的数据信息。
简单来说,当数据累积到一定数量时,通过数学模型
进行建模分析,就是大数据分析的雏形。例如,在数学中,我们学到的方程就是线性回归模型的基础表现。以学生的学习成绩来说,假设影响成绩的因素有且只有学习的时长,那么可以将学习时长设为自变量X,成绩设为因变量Y。这样我们可以通过长期收集的数据推算出自变量的系数,得到一个线性方程,如图1-1所示。
如图中所展示的公式,代入不同的学习时长,就可以
得到一个对应的学习成绩。通过这个简单的模型,我们可以知道,如果希望考试及格,需要分配多少时间来学习;如果希望成绩优秀(80分以上),需要多少时间来学习。大数据时代,让我们可以更加合理地分配资源,获得更优的结果,最终推动了时代的发展。所以,未来将不再是IT时代,而是DT(DataTechnology)的时代,也就是数据科技所带来的新的发展。
数据根据其内容不同,一般分为:
能够用数据或统一的结构加以表示的信息,称为结构
化数据,如数字、符号等。传统的关系数据模型——行数据,存储于数据库,可用二维表结构表示,如图1-2所示。简单来说,结构化数据就是数据库,如企业ERP、财务系统等。
员工ID
员工姓名性别
部
Salary_In_lac
S
2365
RajeshKulkar男
ni
金融
650000
3398
PratibhaJosh女
管理员
650000
7465
ShushilRoy男
管理员
500000
7500
ShubhojitDa男
S
金融
500000
7699PriyaSane女金融550000
图1-2结构化数据
2.非结构化数据
非结构化数据与结构化数据比对如图1-3所示。非结构化数据是指其
字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息),而且更适合处理非结构化数据(如全文文本、图像、声音、网页、影视、超媒体等信息)。
非结构化数据
文本图片视频
结构化数
文档评论(0)