企业大数据治理平台技术白皮书.pptxVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

目录;应用服务....................................................................................................................................................9

存储............................................................................................................................................................9;1.大数据治理平台整体介绍

1.1概述

近年来,随着企业的信息化数据沉淀,内部各业务线的数据仓库建立完成,如何将数据统一管理,提升数据价值成为了企业关注的重点,有效的数据资产管理是大数据与实体经济深度融合的必经之路。数据成为资产的概念逐渐深入人心。

数据治理在衔接大数据治理平台和数据应用中起着重要的作用。对上支持以

价值挖掘为导向的数据应用开发,最大化利用数据,对下依托大数据治理平台实现数据全生命周期的管理。因此,越来越多的企业逐渐意识到数据治理工作的重要性,并将其作为数据应用建设的第一环节。

在这样的需求下,基于元数据驱动的企业数据治理产品大数据治理平台应运

而生。大数据治理平台涵盖了元数据的采集,数据字典标准的智能规范,数据的生命周期管理,数据安全的精准控制,数据资产的流通与监控,数据血缘的回溯和影响等功能,一站式解决数据治理的难题。并在此基础上,做到全面化、自动化和智能化地开发、管理、共享和使用数据,大大节约时间,减少人力成本。

大数据治理平台在大数据应用体系中的定位如图1:;大数据治理平台的整体架构如图2,整体上分为接入层、服务层、接口层。接入层包含元数据采集和血缘关系采集,服务层包含元数据、数据目录、数据关系、数据申请、权限等5个服务,接口层提供元数据检索查询、数据关系查询等通用接口。;智能规范的数据字典标准

数据字典标准可以通过人为采集录入,也可通过自动化扫描全域元数据,智能感知相似数据进行聚类处理,初步提炼标准数据,减少人力成本。

数据权限的精准控制

数据权限的申请和赋权都可以精确到字段级,申请到的权限可以用在数据拖取、跨数据源查询、权限下发等统一出口(几大能力在开发中,后续提供)。同时,通用的权限模型可快速适配绝大多数数据???理工具。

精确到字段级的数据血缘

基于数据关系的血缘分析,大数据治理平台支持精确到字段级别的元数据血缘关系处理,为元数据的追溯和影响分析提供更精确的数据支撑。

3适用场景

各业务数据仓库独立,各自实现复杂,互相无通信,数据不流通,数据价值无法发挥,缺乏整体统一数据管理平台。

权限各自独立实现,无统一出口,数据交换不可控,数据安全无法保证,缺乏统一数据处理平台。

2.系统组成与功能;图3元数据系统架构图

元数据服务

通用

元数据系统属于无状态服务,可直接弹性扩容缩容,支持高可用。提供通用

Rest接口,接收元数据推送。

元数据存储能力在百万级,包括分区等数据存储相关信息。采用MySQL作为元数据存储方案,一主多从,支持高可用。

由于服务和存储可线性扩展,元数据同步具备高吞吐、低延迟等特点。未来会引入消息系统,增加高峰请求的并发处理能力。

支持的数据源

目前支持Hive、MySQL通用关系型数据库。我们做了大量调研以及和多个客户沟通后,确定这两大类型能够覆盖到业务数据仓库场景80%以上。同时,文件、ES、MongoDB等多种数据源类型在持续开发中。

Namespace

大数据治理平台对于元数据的定义,除了通常理解的数据库和表,新增了Namespace的概念。可以管理来自于多个业务数据仓库的元数据,避免database重名及其他问题,增加了元数据管理的灵活性和扩展能力。

变更策略

业务数仓的元数据存在更新情况。元数据的更新接入受变更允许策略的控制,这个策略配置基本取决于数仓的选型,各种数仓的变更策略可能会不同,总体原则都是元数据变更后,不能影响访问历史数据。比如,Hive不支持删除字段,;不支持类型长度精度的向下变化等。

2.1.1.5版本控制

元数据更新后,不会对历史数据修改,而是版本上的递增,历史版本会做备份。同时提供版本对比的能力,确定版本的变化,为数据资产层面的历史追溯做支持。另外,从数据使用层面,比如数据查询或数据拖取,元数据的历史备份也会在出现问题时及时回滚,不影响上层业务应用的正常执行。

2.1.2元数据采集程序Agent

采集程序Agent是开源的,部署在数据仓库侧,根据配置中指定的库表白名

文档评论(0)

小波很忙 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档