99-山西省大数据存储和管理规范0613V2.0.docx

99-山西省大数据存储和管理规范0613V2.0.docx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

山西省大数据存储和管理规范

山西省大数据存储和管理规范

(试行)

目录

TOC\o1-3\h\z\u1前言 1

2范围 2

3规范引用文件 3

4术语和定义 4

4.1分布式存储系统 4

4.2列式存储 4

4.3多租户 4

5大数据平台硬件要求 5

5.1网络要求 5

5.2服务器配置要求 5

5.3服务器上架要求 5

6存储空间规划 6

7存储优化 7

7.1数据压缩 7

7.2列式存储和数据分布 7

7.3小文件存储策略 8

8数据生命周期管理 9

8.1数据表分类 9

8.1.1事件型流水表(增量表) 9

8.1.2事件型镜像表(增量表) 9

8.1.3维表 9

8.1.4合并全量表 9

8.1.5计算临时表 9

8.1.6数据集成临时表 9

8.1.7普通全量表 10

8.2数据表等级划分 10

8.3数据生命周期管理策略 10

8.3.1永久保留 10

8.3.2直接删除 10

8.3.3定期删除 10

8.3.4冷数据备份 10

8.3.5增量表合并 11

8.4数据生命周期管理矩阵 11

9运维 12

9.1业务层面 12

9.2物理层面 12

10附例 13

PAGE1

前言

本标准由XXX提出。

本标准由XXX归口。

本标准起草单位:山西省经济和信息化委员会。

范围

本标准主要规范大数据平台的数据存储和管理,适用于大数据平台建设方、大数据平台运维方。

规范引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

术语和定义

下列术语和定义适用于本文件。

分布式存储系统

分布式存储是基于计算机网络的多个节点提供统一的存储服务,能够存储大量数据,并提供冗余备份功能。

列式存储

列式存储是指按列组织并存储数据,在按列查询时可以过滤更多数据而获得更好的查询性能,通常也能够基于列做数据压缩。

多租户

多租户技术是一种软件架构技术,实现在多用户的环境下共用相同的系统或程序组件,并且确保各用户之间数据的隔离性。

大数据平台硬件要求

网络要求

选择万兆网络。对于常见大数据计算框架比如MapReduce/Spark而言,Shuffle过程都容易成为计算瓶颈。

服务器配置要求

大数据平台利用分布式并行的能力解决海量数据存储的问题,服务器选用普通X86服务器即可。服务器选择基本原则如下:

1、为了满足大吞吐量读写,磁盘块数尽可能多,建议不要少于8块;

2、大规模离线计算要求,SATA盘即可满足。如果对性能有更高要求,可选用SSD磁盘;

3、选择市场上的常见机型,便于后续的扩容和维护;

4、不要采用多种异构节点部署,避免运维成本的提升。

建议服务器最小配置如下表:

表STYLEREF1\s4SEQ图表\*ARABIC\s11大数据平台物理服务器最小配置

建议最小配置

服务器外观

机架式

处理器类型

2路8核

内存配置容量

256G

硬盘

4T[sata,7200rpm]*12

硬盘兼容性

支持SAS/SATA硬盘和SSD硬盘混用模式

网卡

双端口10G网卡

服务器上架要求

考虑大数据平台可靠性要求,服务器上架应满足相同功能的节点服务器不能部署在同一个机柜内。

存储空间规划

在部署实施大数据平台之前,对于所需要的存储空间,必须提前规划。规划大数据平台存储空间有以下两个非常重要的参数:

参数1:单节点真实数据存储容量

[单节点真实数据存储容量]=[单磁盘容量]X[可以用作分布式存储的磁盘个数]X[磁盘安全系数]/[分布式冗余倍数]

(1)单节点真实数据存储容量:大数据平台单个节点的有效存储容量;

(2)单磁盘容量:单个磁盘的物理存储容量;

(3)可以用作分布式存储的磁盘个数:单个节点可用做存储数据的磁盘数量;

(4)磁盘安全系数:从安全角度考虑留一定余量,一般建议选择0.8或者更低;

(5)分布式冗余倍数:分布式冗余倍数默认是3(因为HDFS分布式文件系统存储机制为三副本)。

参数2:集群所需起用节点数目

[集群所需起用节点数目]=([当前业务既有数据量]+[每日预估新增数据量]*[膨胀系数]*365)/[单节点真实数据存储容量]

(1)集群所需起用节点数目:即集群最小节点数量;

(2)当前业务既有数据量:历史数据或者存量数据;

(3)每日预估新增数据量:数

文档评论(0)

152****8691 + 关注
实名认证
内容提供者

Sun认证程序员持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年07月07日上传了Sun认证程序员

1亿VIP精品文档

相关文档