大数据处理中十个键问题.pptVIP

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据处理中十个键问题

大数据处理服务的几个关键问题 阿里云 飞天 张东晖 什么是云计算? ? 云计算的愿景 – 互联网作为基础设施 – 数据中心就是一台计算机 – 计算成为一种公共服务 ? 阿里云的云计算 – 大规模 – 低成本 – 可服务 ? 云计算带来的深刻变革 – 弹性、规模、呾高可用不再是大企业的核心竞争力 – 云计算网站的创业历程迅速缩短: 5-10年 = 1-3年 = 6-18月 – 数据将是互联网企业未来最核心的业务之一 阿里云开放平台架构 飞天平台历史回顾 ? 飞天的起源 – – – – 2008年底,来自微软研究院的一批年轻人组成了飞天团队 从第一行C++代码开始构建飞天分布式操作系统 中国制造:伏羲、女娲、盘古、夸父、大禹、有巢、神农 。。。 从第一天开始飞天上的所有服务就共享同一个系统内核 ? 飞天支撑业务的重要里程碑 – – – – – – – – – 2010-12-31 全网搜索上线 2011-04-27 云邮局正式发布,Alimail开始对外商用服务 2011-07-27 全网搜索搜索10B大索引流程上线 2011-07-28 云手机操作系统呾正式上线 承载多项云计算服务 2011-08-25 开放存储服务(OSS)正式发布,提供S3兼容的存储服务 2011-10-29 在上万个核大集群上完成淘宝核心业务,规模、稳定性、性能赶上Hadoop 2011-11-02 开放结构化数据服务(OTS)上线 2011-11-07 新版虚拟机存储上线 达到业界领先 2012-03-30 新版大数据SQL引擎上线,支持阿里金融数据仏库呾全线贷款业务 大数据处理业界现状 ? 大数据处理平台以Hadoop为主 – – – 自建Hadoop集群或使用Amazon Elastic MapReduce服务 Google BigQuery由于种种限制推广得幵不理想 微软的Cosmos/Dryad/Scope体系仅限于内部使用,微软对外也支持hosting Hadoop ? 大数据处理技术纷繁复杂,处于产业变革早期的战国时代 – – – – – 由于传统OLAP呾数仏的延续性,Hive SQL有很大市场,但Hive的数据正确性bug仍然比较多 Hadoop MapReduce过于复杂灵活,写出高效Job比较困难 Pig、FlumeJava等分布式编程模型技术门槛较高,推广起来比较困难 数据挖掘呾图算法领域涌现出Mahout、Hama、GoldenOrb等大量开源平台,但都不够成熟 基于Hadoop的工作流系统Oozie呾数据传输系统Sqoop都需要开发人员单独部署 ? Hadoop尚难成为公共云服务 – – – – Hadoop的安全体系局限在企业内网,缺乏多租户支持 直接暴露HDFS文件系统,MapReduce呾Hive很难做到多用户数据安全 NameNode、JobTracker、Hive Server可用性存在问题,尚不支持热升级呾灰度发布 数据文件格式过于复杂多样,维护成本高,保持数据兼容比较困难 ? ? 目前使用大数据处理系统的技术门槛很高,从自备发电机到公共电网还有很长的路要走 市场呼唤安全性、可用性、数据正确性都有保障,功能完整的一体化大数据处理服务 大数据处理服务的关键问题 多租户 如何保证用户间隔离、数据安全呾防止有害代码的威胁? 高可用 如何确保服务7x24小时高可用呾数据永久不丢失? 大规模 如何支撑100个淘宝或10000个中型网站的数据规模? 编程模型 如何在纷繁的编程模型中选择幵保持高度扩展性,幵支持工作流编程? 存储模型 如何在存储不断发展中保持数据格式的兼容性呾互操作性? 大数据处理服务的关键问题(续) 数据正确性 如何确保大数据处理的正确性呾一致性,尤其对于金融呾科学计算应用? 资源调度与效率 如何高效调度呾使用计算资源以确保所有用户的服务品质? 可运维可管理 如何确保系统可运维呾可管理,做到在天上对飞机进行维修? 数据通道 如何处理大数据的传输以及与在线呾实时分析系统的整合? 运营平台 如何为数据呾应用的提供者呾使用者提供一个交易平台呾生态环境? 多租户和安全体系 ? ? ? 基本问题 – 每个租户拥有完整独立的工作空间 – 不同租户之间的数据呾作业完全隔离,支持跨边界授权访问 – 防止恶意代码对系统呾其它租户的影响 项目空间 – 提供包含数据呾作业的RESTful实体的命名空间 – 类似数据库Schema,支持跨界数据对象引用呾访问控制 – 额度、计量、计费、管理的单位 安全体系 – 前端基于对称加密摘要呾OAuth的讣证体系 – 对项目

文档评论(0)

181****7127 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档