- 1、本文档共475页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
流数据分析技术全套课件流数据分析技术全套课件流数据分析技术全套课件
流数据分析技术(引言)
1
课程情况
2
课程目标
3
课程内容
4
考核方式
5
参考资料
有什么差别
3
计算机科学与技术
软件工程
计算机网络
大数据
软件
硬件
多机
数据科学
软件所处理的内容
4V数据
流数据
在线数据
人工智能
深度学习
数据科学
4
数学/统计学
Math/Statistics
软件工程
Programming/
Hacking
领域知识
Domain
Knowledge
Modeling
/ML
Analysis
Research
Data Software
Engineer
5
我们希望从数据中得到什么
数据
信息
知识
洞察
智慧
无结构
有结构
可检索
有关联
可检索
相关性
可推理
关系型数据库
数据库
分布式存储
数据挖掘
人工智能
学的是什么
使同学们
理解大数据与流数据的区别
大数据是什么?
流数据是什么?
流数据处理与流计算是一个概念吗?
对流式数据处理形成自己的观点和看法
对适合流计算的数据处理方式和数据处理方法有认识和一定的掌握
能够“触类旁通”的学习新的流式数据处理方法
6
知其然,知其所以然
7
课程内容
引言
第一章 大数据与流数据
第二章 流数据处理与流计算
流数据处理模型
概要结构
流数据处理算法
Think More, Think Different
8
课程内容
第三章 流数据概要结构构建技术
第四章 流数据频繁模式挖掘技术
第五章 流数据聚类分析技术
第六章 流数据分类分析技术
第七章 流数据时间序列分析技术
第八章 流数据处理框架
学习的关键是抓住其中的“实时性”
9
考核方式
考试:大作业
难度:中
体力要求:较高
参考资料
10
交换与智能控制研究中心
流数据分析技术(大数据与流数据)
1
从物联网到信息物理系统
2
从抽样数据到大数据
3
从大数据到人工智能
4
大数据与流数据——从一个例子开始
5
实际应用场景
信息社会的基础
电信网络
2G(程控交换)
下一代网络
3G(软交换)
IMS/FMC
互联网
IPv4
下一代互联网
IPv6
Web 2.0
LTE:Long Term Evolution(长期演进)
LTE-A:LTE-Advanced(LTE技术后续演进)
IMS:IP Multimedia Subsystem(IP多媒体子系统)
FMC:Fixed-Mobile Convergence(固网移动融合)
IOT:Internet of Things
RFID:Radio Frequency Identification
个人电脑
台式机
笔记本
平板
大型机
小型机
PC服务器
15
IoT 与 CPS
物联网IoT :Internet of Things
侧重于机器之间的通信过程
通过网络设施实现广域或大范围的人与物、物与物之间信息交换
信息物理系统CPS:Cyber Physical Systems
通过3C技术的有机融合与深度协作,实现对物的实时、动态的信息控制与信息服务
强调与物理世界交互的感知与反馈控制过程,通过计算进程和物理进程相互影响实现信息空间与物理空间的密切互动
计算(Computation)
通信(Communication)
控制(Control)
大规模数据如何使用
1
从物联网到信息物理系统
2
从抽样数据到大数据
3
从大数据到人工智能
4
大数据与流数据——从一个例子开始
5
实际应用场景
17
从小规模数据到大规模数据
应用
平台
服务
G-T级
T-P级
大规模互联网/物联网服务
18
从小规模数据到大规模数据
规模大
用户多
总量大
分布广
变化快
种类杂
数据源多样
数据类型多样
数据结构多样
价值密度低
数据高冗余
数据特征不明显
数据信息量低
用户强交互性
数据具有传播性
传播行为复杂
大数据的4V特征
19
大数据的意义
揭示宏观变化规律
发现不同事物间的关联关系
规模大
少量数据无价值
抽取目标对象的特征
百度通过4亿用户分析提供个性化搜索服务
2008年谷歌通过庞大搜索数据训练4.5亿个数学模型,提前几周预测出H1N1流感的爆发和传播
2008年阿里巴巴提前8-9个月预测出金融危机
短时变化无规律
单一来源无特征
20
从抽样数据到全量数据
从抽样到全样
大数据数量大,数据统计特征分布不均匀,传统采样方法不适用
从精确到非精确
大数据下精确性不再是绝对追求目标,需对宏观趋势给出快速预测
从因果到关联
仅需知其然,无需知其所以然,用于“发现事实、预测未来”
传统数据处理:
抽样数据
精确结果
准确建模
SELECT … FROM … WHERE … ORDER BY
SUM( … ) GROUP BY …
Google流感预测采
文档评论(0)