全链路数据治理—主动数据治理篇.pptx

全链路数据治理—主动数据治理篇.pptx

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;卷首语

云原生一体化数仓是阿里云整合自研大数据产品MaxCompute、DataWorks、Hologres和实时计算Flink版推出的一站式大数据处理平台,具备流批一体、实时离线一体、湖仓一体、全链路数据治理四大核心能力,可以满足企业在建设大数据平台中对时效性、准确性、性价比、非结构化数据处理的需求,基于精简的架构,支撑全域数据分析需求和决策。;目录;2万字揭秘阿里巴巴数据治理平台DataWorks建设实践 5

2万字揭秘阿里巴巴数据治理平台DataWorks建设实践

作者:阿里云DataWorks团队

阿里巴巴一直将数据作为自己的核心资产与能力之一,通过多年的实践探索建设数据应用,支撑业务发展。在不断升级和重构的过程中,我们经历了从分散的数据分析到平台化能力整合,再到全局数据智能化的时代。如今,大数据平台面临全新的挑战,特别是降本等数据治理需求的不断出现,今天阿里云DataWorks团队将其中一些建设经验与大家进行一些分享。

一、数据繁荣的红利与挑战

大数据平台的建设,到底可以为企业带来什么样的价值?

对于技术同学来说,往往会用一些技术指标来衡量,例如数据量,机器数量,任务数量等等。根据我们往年已经对外公开的数据,我们可以看到大数据计算引擎MaxCompute的单日数据处理量在不断增长,在2021年双11的时候,MaxCompute单日数据处理量已经达到了2.79EB。有趣的是,双11不仅仅意味着当年的波峰,同时也是来年的起点,成为了2022年日常每天的数据处理量,去年的峰值成为了来年的日常。在大数据开发治理平 台DataWorks上,单日任务调度实例数也超过了1000万,其中也包含着业务之间50多种各类复杂的数据处理关系,保障数据正常、有序产出,如果将整个阿里巴巴集团的数据任务依赖全部展开,将会是一副非常广阔的数据画卷。

规模当然可以一定程度上反馈我们为业务带来的支持,特别像双11这种世界级的场景,对很多技术都是全新的挑战。但是从大数据平台到创造价值之间,还有一个很重要的环节是“人”,是大数据平台的用户。

对于DataWorks来说,作为大数据平台最贴近用户的工具层,可以看到DataWorks

集团???的用户数正在以每年5位数的量级不断快速增长,当前每月在DataWorks上;2万字揭秘阿里巴巴数据治理平台DataWorks建设实践 6

进行各类数据操作的活跃用户数超过5万人,除了数据工程师、算法、开发等技术人员在上面进行数据同步、开发、治理等工作,同时也服务运营小二、分析师、财务、HR等各类业务人员,进行个性化的找数、取数、用数等分析工作。所以,大数据平台不仅仅应该停留在数据团队,我们要有更多的用户进来,更多地走向业务团队,提升数据使用的效率,让平台、用户、业务达成正向循环,推动企业数据价值不断释放。

从最早的淘宝、天猫等电商业务,到后续的优酷、高德、菜鸟等板块,DataWorks与MaxCompute等产品用一套技术体系来支持不同业务的发展与创新。因此我们认为大数据平台的价值体现,不仅仅是数据量的增长,同时也是用户数的增长,数据应用(业务)的增长,人人参与数据建设,为企业带来整体的“数据繁荣”。;2万字揭秘阿里巴巴数据治理平台DataWorks建设实践 7;2万字揭秘阿里巴巴数据治理平台DataWorks建设实践 8

常面对的问题类型之一。在这个时候遇到的数据治理问题主要集中在集群上,例如任务长时间等待,计算、存储、调度等各种资源不足,数据无法产出,或者产出脏数据,集群挂了,运维无法定位问题,问题处理时间长,补数据止血难度大,人肉运维无自动化等等。这个时候,业务将会明显感受波动,有些故障甚至会造成业务资损。

应用阶段-数据普惠与使用效率的矛盾

当我们“有”数据的时候,接下来面临的就是“用”数据,我们想要更多人来使用数据,实现数据普惠,但是用的人越多,需求也会越多,效率反而会受阻。我们的产品满足50人使用还是5万人使用,可以说是天差地别。这时遇到的更多数据治理需求主要集中在效率上,例如:各个部门人员找数、查数、用数需求不断增加,使用数据人员开始增多,数仓人员疲于取数;数据开始赋能业务,各类数据应用需求井喷,数据团队压力增大等等。这个时候,数仓建设可能逐步变得有点混乱,甚至有走向失控的节奏。

规模阶段-灵活便携与风险管控的矛盾

随着用数据的人越来越多,前台也会建设越来越多的数据应用,带来的各类数据风险就会增大,我们要开始“管”数据,但是各类数据安全的管理动作往往会和效率背道而驰。在这个阶段我们解决的数据治理主要问题主要集中在各类

文档评论(0)

动点策划 + 关注
官方认证
服务提供商

动点策划通过提供各行各业经典策划案例,策划思路,行业最新动态,旨在做好你的助手,为你正在谋划的事情提供框架思路或创作灵感。

认证主体迈通人才资源咨询(广东)有 限公司
IP属地广东
统一社会信用代码/组织机构代码
914400007224748147

1亿VIP精品文档

相关文档