教学课件第3章 大数据存储与计算.pptx

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章 大数据存储与计算 第3章 大数据存储与计算 提纲 3.1 大数据存储 3.2 HDFS文件系统 3.3 NoSQL数据库 3.4 Hbase数据库 3.5 大数据处理 3.6 分布式计算 3.7 MapReduce模型 3.8 Spark通用计算框架 《大数据导论》 3. 1 大数据存储 Big Data(大数据技术)作为一个专有名词成为热点,主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互,要处理的数据量实在是太大、增长太快了,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求。 在这种情况下,传统的常规技术针对大数据存储要求,采取了一些新存储架构和方法,主要包括DAS/NAS/SAN存储结构。但基于存储设备的性能、成本等问题的考虑,架构基于大规模分布式计算(MPP)的GFS/HDFS分布式文件系统、各种NoSQL分布式存储方案等应运而生。 3.1.1 大数据如何存储 1. 结构化数据存储 结构化数据通常是人们所熟悉的数据库中的数据,它本身就是一种对现实已发生事项的关键要素进行抽取的有价信息。现在各类企业和组织都有自己的管理信息系统,随着时间的推移,数据库中积累的结构化数据越来越多,一些问题显现出来,这些问题可以分为四类: 1)历史数据和当前数据都存在一个数据库中,导致系统处理速度越来越慢; 2)历史数据与当前数据的期限如何界定; 3)历史数据应如何存储; 4)历史数据的二次增值如何解决。 3.1.1 大数据如何存储 1. 结构化数据存储 问题1和问题2可以一起处理。导致系统处理速度越来越慢的原因除了传统的技术架构和当初建设系统的技术滞后于业务发展之外,最主要的是对于系统作用的定位问题。从过去30年管理信息系统发展的历史来看,随着信息技术的发展和信息系统领域的不断细分,可将信息系统分为两类,一类是基于目前的数据生产管理信息系统,一类是基于历史的数据应用管理信息系统。 问题3和问题4可以放在一起处理。由于历史数据量规模庞大,相对稳态,其存储和加工处理与数据生产管理系统的思路应有很大的不同。结构化数据存储是为了分析而存储,采用分布式方式,其目标有两个:一是在海量的数据库中快速查询历史数据,二是在海量的数据库中进行有价值信息的分析和挖掘。 2. 非结构化数据存储 常见的非结构化数据包括文件、图片、视频、语音、邮件和聊天记录等,和结构化数据相比,这些数据是未被抽象出有价值信息的数据,需要经过二次加工才能得到其有价值信息。由于非结构化数据的生产不受格式约束、不受主题约束,人人随时都可以根据自己的视角和观点进行创作生产,所以数据量比结构化数据大。 由于非结构化数据具有形式多样、体量大、来源广、维度多、有价内容密度低、分析意义大等特点,所以要为了分析而存储,而不是为了存储而存储,即存储工作是分析的前置工作。当前针对非结构化数据的特点均采用分布式文件系统方式来存储这些数据。 3.1.1 大数据如何存储 3. 半结构化数据存储 半结构化数据是指数据中既有结构化数据,也有非结构化数据,比如,摄像头回转给后端的数据中有位置、时间等结构化数据,还有图片等非结构化数据。这些数据是以数据流的形式传递的,所以半结构化数据也叫流数据。对流数据进行处理的系统叫做数据流系统。 数据流的特点是数据不是永久存储在数据库中的静态数据,而是瞬时处理的源源不断的连续数据流。在大量的数据流应用系统中,数据流来自于地理上不同位置的数据源,非常适合分布式查询处理。 3.1.1 大数据如何存储 1. 容量问题 要求数据容量通常可达PB级,因此,海量数据存储系统一定要有相应等级的扩展能力。同时存储系统的扩展一定要简便,可以通过增加模块或磁盘组来增加容量,扩展时甚至不需要停机。 2. 延迟问题 “大数据”应用存在实时性问题,特别是涉及与网上交易或者金融类相关的应用。为了应对这样的挑战,各种模式的固态存储设备应运而生,小到简单地在服务器内部做高速缓存,大到通过高性能闪存存储的全固态介质可扩展存储系统,以及自动、智能地对热点数据进行读/写高速缓存的系列产品。 3. 安全问题 某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性要求。同时,大数据分析往往需要多类数据的相互参考,因此,会催生出一些新的、需考虑的安全问题。 4. 成本问题 对于需要使用大数据环境的企业来说,成本控制是关键问题。想控制成本,就意味着让每一台设备实现更高效率,同时尽量减少昂贵的部件。目前,重复数据删除技术已进入主存储市场。 3.1.2 大数据存储的问题 5. 数据的积累 任何数据都是历史记录的一部分,而且数据的分析大多是基于时间段进行的。

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5342120324000033

1亿VIP精品文档

相关文档