- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
目录;应用服务....................................................................................................................................................9
存储............................................................................................................................................................9;1.大数据治理平台整体介绍
1.1概述
近年来,随着企业的信息化数据沉淀,内部各业务线的数据仓库建立完成,如何将数据统一管理,提升数据价值成为了企业关注的重点,有效的数据资产管理是大数据与实体经济深度融合的必经之路。数据成为资产的概念逐渐深入人心。
数据治理在衔接大数据治理平台和数据应用中起着重要的作用。对上支持以
价值挖掘为导向的数据应用开发,最大化利用数据,对下依托大数据治理平台实现数据全生命周期的管理。因此,越来越多的企业逐渐意识到数据治理工作的重要性,并将其作为数据应用建设的第一环节。
在这样的需求下,基于元数据驱动的企业数据治理产品大数据治理平台应运
而生。大数据治理平台涵盖了元数据的采集,数据字典标准的智能规范,数据的生命周期管理,数据安全的精准控制,数据资产的流通与监控,数据血缘的回溯和影响等功能,一站式解决数据治理的难题。并在此基础上,做到全面化、自动化和智能化地开发、管理、共享和使用数据,大大节约时间,减少人力成本。
大数据治理平台在大数据应用体系中的定位如图1:;大数据治理平台的整体架构如图2,整体上分为接入层、服务层、接口层。接入层包含元数据采集和血缘关系采集,服务层包含元数据、数据目录、数据关系、数据申请、权限等5个服务,接口层提供元数据检索查询、数据关系查询等通用接口。;智能规范的数据字典标准
数据字典标准可以通过人为采集录入,也可通过自动化扫描全域元数据,智能感知相似数据进行聚类处理,初步提炼标准数据,减少人力成本。
数据权限的精准控制
数据权限的申请和赋权都可以精确到字段级,申请到的权限可以用在数据拖取、跨数据源查询、权限下发等统一出口(几大能力在开发中,后续提供)。同时,通用的权限模型可快速适配绝大多数数据???理工具。
精确到字段级的数据血缘
基于数据关系的血缘分析,大数据治理平台支持精确到字段级别的元数据血缘关系处理,为元数据的追溯和影响分析提供更精确的数据支撑。
3适用场景
各业务数据仓库独立,各自实现复杂,互相无通信,数据不流通,数据价值无法发挥,缺乏整体统一数据管理平台。
权限各自独立实现,无统一出口,数据交换不可控,数据安全无法保证,缺乏统一数据处理平台。
2.系统组成与功能;图3元数据系统架构图
元数据服务
通用
元数据系统属于无状态服务,可直接弹性扩容缩容,支持高可用。提供通用
Rest接口,接收元数据推送。
元数据存储能力在百万级,包括分区等数据存储相关信息。采用MySQL作为元数据存储方案,一主多从,支持高可用。
由于服务和存储可线性扩展,元数据同步具备高吞吐、低延迟等特点。未来会引入消息系统,增加高峰请求的并发处理能力。
支持的数据源
目前支持Hive、MySQL通用关系型数据库。我们做了大量调研以及和多个客户沟通后,确定这两大类型能够覆盖到业务数据仓库场景80%以上。同时,文件、ES、MongoDB等多种数据源类型在持续开发中。
Namespace
大数据治理平台对于元数据的定义,除了通常理解的数据库和表,新增了Namespace的概念。可以管理来自于多个业务数据仓库的元数据,避免database重名及其他问题,增加了元数据管理的灵活性和扩展能力。
变更策略
业务数仓的元数据存在更新情况。元数据的更新接入受变更允许策略的控制,这个策略配置基本取决于数仓的选型,各种数仓的变更策略可能会不同,总体原则都是元数据变更后,不能影响访问历史数据。比如,Hive不支持删除字段,;不支持类型长度精度的向下变化等。
2.1.1.5版本控制
元数据更新后,不会对历史数据修改,而是版本上的递增,历史版本会做备份。同时提供版本对比的能力,确定版本的变化,为数据资产层面的历史追溯做支持。另外,从数据使用层面,比如数据查询或数据拖取,元数据的历史备份也会在出现问题时及时回滚,不影响上层业务应用的正常执行。
2.1.2元数据采集程序Agent
采集程序Agent是开源的,部署在数据仓库侧,根据配置中指定的库表白名
您可能关注的文档
最近下载
- 《改造我们的学习》课件+2024-2025学年统编版高中语文选择性必修中册.pptx VIP
- T∕CECS 10028-2019 绿色建材评价 钢结构房屋用钢构件(可复制版).pdf
- 毕业典礼的活动策划方案.pptx VIP
- A4线缆标签打印模板.xls VIP
- 2022年高中学业水平考试试题及答案9科.docx VIP
- 临潭县住房和城乡建设局社会稳定风险评估工作实施方案.pdf VIP
- 新北区苏科版二年级上册劳动《6、树叶书签》教案.docx VIP
- 试验设计与数据处理(第三版)李云雁-第4章-回归分析.pptx VIP
- 西子奥的斯OH-CON电气原理图纸XAA21310S 一体化LMCB图纸.pdf
- A4标签打印模板.xls VIP
文档评论(0)