分布式存储平台建设方案.docx

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式存储平台建设方案 平台架构 分布式存储平台整体架构如下图所示: 应用接入接口,上层应用系统可以通过JDBC、SOA、C API等多种接口方式与分布式集群数据库系统进行交互。 分布式任务调度系统,整个分布式数据库系统的核心。负责对接收到的SQL任务进行任务分发、资源调度等工作。语法解析,将SQL语句解析成语法树;查询优化,根据优化规则及算法,对查询的过程进行优化;执行计划,根据优化器优化后生成的执行计划执行查询任务;结果汇总,将集群各节点的查询结果进行汇总后返回。 分布式并行计算系统,协调各节点以并行的方式完成一些复杂的任务。 分布式存储系统,将数据表里面的数据以水平分表的方式分布存储在各节点上。 集群管理监控系统,对整个集群的软、硬件资源进行监控管理。 日志安全审计系统,记录用户的操作过程日志,系统出现安全隐患时,可根据日志追溯源头。 容灾系统,数据在数据库系统中存储两份,当一份有问题时,可启用另一份数据;还可定期的对整个系统进行容灾备份。 数据抽取系统,将其他数据源(oracle、sqlserver、hadoop、文本文件等)的数据抽取到SCSDB系统。 平台特色 (1)高性能 采用大集群架构,对数据自动分片进行分布式存储,满足海量数据存储需求。 高性能数据查询与分析,经过大量的数据库性能测试发现基于单表查询分析与基于字典表和主表的多表联合查询分析耗时与节点数量呈反比例关系。在数据量一定情况下可以通过增加服务器数量来定量提高数据库性能。Y = K / X + M (K > 0, X >0, M >=0 ), Y表示查询用时,X表示节点数量,K表示节点数为1时查询耗时,M表示常数。在一定情况下可以通过增加服务器数量来定量提高数据库性能。 查询优化,数据库语法分析引擎根据最优查询路径自动重组查询语句保证查询效率。 数据快速写入与键值查询,采用hash快速定位的方法,加快数据插入和主键查询。 查询结果集缓存,通过创建的结果集缓存,把结果集保存下来从而使性能得到成倍地提升。 (2)虚拟化 数据库将所有服务器资源整合成一个大规模的数据库大规模数据库系统,又能将这个超大规模的实体集群按需分割成若干虚拟的数据库。采用这种虚拟化技术能实现数据库资源的按需分配,提高资源利用率。 (3)易扩展 数据库系统具备良好的横向扩展能力,系统可以动态增加服务器节点提高数据库存储能力、写入性能和数据查询分析性能。 (4)稳定可靠 数据库采用去中心化设计无单点依赖并自动完成数据多节点同步复制备份功能,在任意一台服务器出现故障情况下数据库服务能自动切换到其他服务器节点,服务不停止,数据不丢失。 (5)安全性 采用身份验证,资源限制,通信加密等多种手段提高系统安全性。 (6)易用性 数据库系统是一个分布式的关系型数据库系统,保留了关系型数据库二维表的设计模式,和其他的关系型数据库系统(如mysql)在概念上、使用上非常相似。支持常用的关系型数据库功能和数据类型。用户如果了解标准SQL相关知识,有相关的结构化数据库系统(如mysql)经验,就可非常容易的学习、理解、使用MPP数据库。 (7)多种开发接口 数据库提供了多种数据库应用编程接口,即C/C++开发库,JAVA开发接口,JDBC接口。用户可以根据不同的需要选择合适的接口,可以大大提高应用开发的效率。 (8)完善的配套工具 数据库提供完善的数据迁移工具和性能测试工具。配套工具能通过数据导出,数据同步等多种方式实现数据从传统关系型数据库(如oracle)迁移到MPP数据库。 分布式存储平台的关键技术 分布式存储平台的核心始终围绕海量数据情况下提升数据分析性能而展开,通过分布式存储技术、并行计算技术、虚拟化节点技术等多种手段来提升性能。本节重点介绍分布式行存储数据库提升性能的主要手段和方法。 分布式存储技术 面向海量结构化数据处理的数据库系统,首先需要实现数据高效存储。 分布式存储基本原理 分布式存储的基本原理是,数据表进行水平分片,分成多个片段映射存储到对应的数据节点上。这样,对于有 N个数据节点的集群,每个数据节点只需存储数据总量的 1/N数据。当用户发起数据查询时,所有数据节点同时工作,而每个节点只处理 1/N的数量,从而大幅提升整体的性能。但是对于用户而言,这样的过程是封闭的,用户看上去还是一个数据表,系统内部自动完成了这一工作。 提供了三种数据分布存储方式,分布式是平均分布、 Hash分布、 Hash+平均混合分布。 平均分布存储 数据平均分布存储是最简单的存储方式,该方式是将数据随机的平均分片到各个数据节点上。当有新数据插入时,寻找当前数据量较少的数据节点,然后将数据存储到该节点。 水平分布优点:集群数据分布均衡非常高,不会出现短板效应,针对单表的数据查询效率非常高。当然因为存储规则简单,

文档评论(0)

一生习武之人 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档

相关课程推荐