大数据存储-完整版精品课件.pptxVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据存储学习目标01知识目标大数据存储技术路线数据仓库的重要性数据处理技术的核心问题02能力目标了解大数据存储技术路线掌握数据处理技术的核心问题学习任务初步探索数据仓库初步数据处理技术的核心问题了解大数据存储技术路线目录030102大数据存储技术路线数据仓库的重要性数据处理技术核心问题大数据存储技术路线采用MPP架构的新型数据库集群,重点面向行业大数据,采用SharedNothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本PCServer,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用大数据存储技术路线围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术,也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。数据仓库的重要性在互联网高速发展之前,无论是电信运营商,还是大银行,保险公司等都花费了巨额资金建立了自己的企业级数据仓库。这些仓库主要是为企业决策者生成企业的一些关键指标(KPI),有的企业有几千张、甚至上万张KPI报表,有日表,周表,月表等等。这些系统有几个主要特征:技术架构主要基于传统RDBMS+小型机+高端阵列(就是大家说的IOE),当然数据库有部分DB2,Teradata等。数据仓库的重要性报表基本都是固定的静态报表,产生的方式是T+1(无法即时产生)数据量增长相对缓慢,DW的环境变化很少。最终用户只能看汇总的报表,很少能够基于汇总数据做动态drilldown(钻取)。多数领导基本上认为花了很多钱,但看不出是否值得做,有鸡肋的感觉。最后大家对大量的报表都视而不见了。数据处理技术的核心问题总结-新型MPP数据库的价值技术:基于列存储+MPP架构的新型数据库在核心技术上跟传统数据库有巨大差别,是为面向结构化数据分析设计开发的,能够有效处理PB级别的数据量。在技术上为很多行业用户解决了数据处理性能问题。用户价值:新型数据库是运行在x-86PC服务器之上的,可以大大降低数据处理的成本(1个数量级)。总结-新型MPP数据库的价值未来趋势:新型数据库将逐步与Hadoop生态系统结合混搭使用,用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求。数据处理技术的核心问题大数据需要多元化的技术来支撑。当前数据处理对企业的挑战越来越大,主要是下面几个原因:第一个原因是数据量已经是上一代的一个数量级了,1个省份级运营商1年就可超越1PB结构化数据。第二个原因是“大数据”关注的更多是用户行为、群体趋势、事件之间的相关性等,而不仅仅是过去的KPI,。这就对数据分析平台对数据的分析能力和性能提出了新的要求和挑战。小结了解大数据存储技术路线01初步探索数据仓库初步数据处理技术的核心问题0302Thanks如果说现在是大数据时代了,其实是数据来源发生了质的变化。在互联网出现之前,数据主要是人机会话方式产生的,以结构化数据为主。所以大家都需要传统的RDBMS来管理这些数据和应用系统。那时候的数据增长缓慢、系统都比较孤立,用传统数据库基本可以满足各类应用开发这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。还有一种这是一种大数据一体机专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性最后,目前多数企业和部门根本就没有数据仓库。其实大家对传统数据的分析还没做得太好、还没有普及,现在又遇上了大数据。数据仓库对企业是真正有用的,其关键还是如何把数据用好。最后,目前多数企业和部门根本就没有数据仓库。其实大家对传统数据的分析还没做得太好、还没有普及,现在又遇上了大数据。数据仓库对企业是真正有用的,其关键还是如何把数据用好。其实我们一直面临着数据处理中最核心、最大的问题,那就是性能问题。性能不好的技术和产品是没有生命力的。数据处理性能问题不是因为大数据才出现,也不会有了大数据技术而消失。处理性能的提升将促进对数据

文档评论(0)

book_zhj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8002066073000063

1亿VIP精品文档

相关文档