大数据平台解决方案_湖仓一体.docx

  1. 1、本文档共74页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

湖仓一体大数据平台

解决方案

湖仓一体大数据平台概述

湖仓一体大数据平台,承担了企业数据治理、开发、管理等职责,往下集成数据,往上搭载应用。

通过数据同步、研发、运维、服务及治理等过程,对企业大数据进行智能管理,形成企业的数据资产。

数据源管理数据源数据文件规范建表可视化建表DDL建表数据同步离线同步实时同步工作空间管理C-)阿里云华为云电信云腾讯云京东云AzureAWS

数据源管理

数据源数据文件

规范建表

可视化建表DDL建表

数据同步

离线同步实时同步

工作空间管理

C-)阿里云

华为云

电信云

腾讯云

京东云

Azure

AWS

资产盘点

资产盘点报告元数据管理

项目管理

S-EMR

数据探查

探查报告

探查任务配置探查实例管理

子账号管理

角色权限管理

阿里云-EMR

数据标准

数据标准管理标准覆盖率评估

AccessKey管理

AWS-EMR

平台安全设置

华为云-MRS

本地IDC

星环-TDH

湖仓一体大数据平台架构

控制台基础设施数据集

控制台

基础设施

数据集成数据研发数据运维数据服务数据治理

数据规划

常规开发

离线开发实时开发

数据工厂

规范建模指标管理参数配置

API工厂

脚本/向导模式

自定义函数导入在线测试数据查询

标签工厂

实体管理标签管理任务管理

算法工厂

算法开发资源管理

常规运维

数据生产运维数据质量运维

指标运维

指标任务监控指标查询

API运维

配置、告警安全组配置

标签运维

标签任务监控标签查询

算法运维

算法任务监控配置及告警

API中心API授权API

API中心

API授权API调用

标签中心

量级、覆盖率标签值分布

数据订阅

数据地图数据管理类目管理数据安全数据脱敏数据加密

数据地图

数据管理类目管理

数据安全

数据脱敏数据加密

生命周期

治理项管理治理效果分析

全链血缘

元数据检索元数据分析

2.湖仓一体数仓建设思路

传统数仓的问题

开发效率

实时指标烟囱式开发效率低门槛高

技术架构

实时离线架构不统一依赖离线T+1导出报表

平台管理

缺少实时元数据管理

未打通实时离线数据的联系

湖仓一体数仓建设思路

批流统一

统一数仓标准与元数据基于SQL统一开发流程

宽表建设

引入Hudi加速宽表产出

基于FlinkSQL构建实时数仓

平台治理

数仓平台化建设

数据统一接入开发元数据管理

统一规范体系(1/3)

命名规范模型规范设计规范

命名规范

模型规范

设计规范

数仓规范

数仓规范

开发规范流程规范存储规范

开发规范

流程规范

存储规范

统一规范,OneData建模方法论(2/3)

业务系统

业务源数据3业务源数据2业务源数据1

业务源数据3

业务源数据2

业务源数据1

……

……

业务板块

业务板块

业务板块1

业务板块

业务板块2

规范定义

模型设计

一致性维度数据域/主题域维度属性业务过程派生指标

一致性维度

数据域/主题域

维度属性

业务过程

派生指标

维表(

维表(DIM)

把逻辑维度物理化的宽表

事务事实表

事务事实表(DWD)最原始粒度的明细数据

原子指标(业务过程+度量)修饰词 统计粒度(维度组合)统计周期(时间维

原子指标(业务过程+度量)

修饰词

汇总事实表(

汇总事实表(DWS)

把明细事实聚合的事实表

数据应用

数据应用层(

数据应用层(ADS)

统一规范,可视化建模工具(3/3)

统一元数据

价值主张:理清数据字典,了解数据来龙去脉

特点:丰富的采集适配器、智能识别关系、丰富的元数据分析和检核

元数据采集元数据分析数据地图

表关联关系采集日志

表关联关系

采集日志

影响分析全链分析适配器管理

影响分析

全链分析

适配器管理

字段关系

字段关系

采集源依赖分析关联度分析入库审核

采集源

依赖分析

关联度分析

入库审核

血缘分析属性差异分析采集任务配置

血缘分析

属性差异分析

采集任务配置

元数据变更元数据核检

变更查询一致性核检数据处理关系名称重复率

变更查询

一致性核检数据处理关系名称重复率

变更订阅组合关系

变更订阅

组合关

文档评论(0)

186****0576 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5013000222000100

1亿VIP精品文档

相关文档