- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE2 / NUMPAGES7
WORD文档下载可编辑
专业技术资料分享
前段时间给大家推荐了《大数据之路--阿里巴巴大数据实践》,这本书确实内容非常详实,全是干货,值得反复品味。刚刚看完第9章,讲的是数据整合及管理体系,觉得非常好,设计得非常精妙,只看看觉得还不能深刻理解,遂做个读书笔记按照自己理解重构整理一遍,同时补充上自己的解读分享给大家,推荐给准备搭建数据产品或者数据平台的人。
传统企业的业务变化相对不快,但使用一般的表格文档来管理数据过程也已经越来越困难,更何况互联网这样迅速变化的业务,做好数据整理及管理的难度可想而知,但阿里的数据团队还是形成了完成的方法体系,并把其工具化。也只有完备方法体系下构建的工具能满足复杂的数据管理需求。
阿里大数据建设方法论的核心就是,从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。目标是建设统一的、规范的数据接入层(ODS)和数据中间层(DWD 和 DWS),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系统建设。所以数据管理体系是包含具体的方法论以及相关的产品两个部分,通过产品把方法论固化为标准的流程和操作,达到数据管理的目的。
数据体系架构
数据管理体系包括了业务板块划分、数据域提炼、业务过程梳理、原子指标/度量定义、派生指标定义及管理,维度分析整理以及数据模型的设计。通过下面的体系架构图来看看数据体系建设的过程、以及每一步做什么和如何做。另外,如何定义每个术语的涵义,准确定义术语非常关键,有时候描述不清楚复杂的流程、场景最根本是因为对其中的一些概念没有非常很好的厘清。
业务板块: 根据业务的属性划分出相对独立的业务板块,业务板块间指标和业务重叠性较低,比如电商板块涵盖淘宝、天猫、天猫国际、B2B系,金融板块涵盖支付宝、花呗、蚂蚁微贷等。业务板块非常宏观,可以想象成贾不死的7大生态。
规范定义:结合行业的数据仓库建设经验和阿里数据自身的特点,设计出的一套过程方法和数据规范命名体系,规范定义将用于模型设计中。规范定义指以维度建模作为理论基础,构建总线矩阵,划分和定义数据域、业务过程、原子指标/度量、修饰类型、修饰词、时间周期、派生指标规则,下图是它们之间的关系,以及具体实例。
规范定义实例
模型设计:以建模理论为基础,基于维度建模总线架构,构建一致性的维度和事实,同时设计出一套表命名规范系统。维度建模理论很多书上都讲过,这里就不单独整理了。
术语定义及说明
我们重点说说数据域、业务过程、修饰词、原子指标、派生指标。
数据域:是面向业务分析的,将业务过程或者维度进行抽象组合的集合。其中业务过程是一个个不可拆分的行为事件,在业务过程之下定义指标;维度是指度量的环境,如买家下单事件,买家是维度,订单数量是度量。数据域是抽象提炼出来的,并且不轻易变动,既能涵盖当前所有业务的业务需要,又能在新业务进入时无影响的分配到已有的数据域中,如果所有分类都不合适才会扩展新的数据域。数据域不同于产品的功能模块和业务线,是从分析的角度来组织数据指标、维度,功能模块是面向用户功能和管理功能的分类。从下面的两个表格能很清楚的看出不同,功能模块和业务线是随时扩展的。
那么划分数据域有什么作用呢?主要是因为经过抽象后数据域相对功能模块和业务过程来说少很多,是有效归纳、组织业务过程的方式、同时方便定位指标/度量。
业务过程:指企业的业务活动事件,如下单、支付、退款都是业务过程,这里要注意,业务过程是一个不可拆分的行为事件。
修饰词:指除了统计维度以外的对指标进行限定抽象的业务场景词语,修饰词隶属于一个修饰类型,如在日志域的访问终端类型下,有修饰词PC端、无线端,有点像属性名和具体属性值的意思。修饰类型是为了方便管理、使用修饰词。
原子指标:和度量含义相同,基于某一业务时间行为下的度量,不可拆分的指标,具有明确业务含义的名词,如支付金额。原子指标有确定的字段名称(中英文)、数据类型、算法说明、所属的数据域和业务过程。原子指标名称 = 动作 + 度量, 例如支付金额、注册用户数 。除了这些标准度量值的原子指标,还有些是为了派生指标而建的原子指标,后面讲派生规则时会说到,例如排名型的 top_xxx_xxx 。
派生指标:?= 一个原子指标 + 多个修饰词 + 时间周期 。可以理解为对原子指标业务统计范围的圈定,说总支付金额是个笼统的高度概括的汇总指标,其业务范围时间并不明确。 加上修饰词后的派生指标如: 最近 1 天北京买家支付金额(最近1天是时间周期、北京是修饰词、买家作为维度)。派生指标的英文名 = 原子指标英文名 ?+ ?时间周期修饰词 + 序号(_002);中文名由时间周期修饰词 + 【其它修
您可能关注的文档
- (全套)薪酬福利管理制度汇编.doc
- (室外)雨污水施工组织设计方案.doc
- 《工程建设项目EPC总承包招投标文件》标准文本.doc
- 《企业安全生产标准化基本规范方案》(GBT33000-2017年).doc
- 【金版教程】2018年生物一轮特训:17基因在染色体上和伴性遗传Word版含解析.doc
- 01设计研究开发项目任务书.doc
- 1-设计研究开发组织管理制度汇编-供参考.doc
- 1校园文化建设方案设计——和雅文化.doc
- 4、辅助工程(谷坊工程)施工组织设计方案.doc
- 46.8米自卸货船造价预算.doc
- 10《那一年,面包飘香》教案.docx
- 13 花钟 教学设计-2023-2024学年三年级下册语文统编版.docx
- 2024-2025学年中职学校心理健康教育与霸凌预防的设计.docx
- 2024-2025学年中职生反思与行动的反霸凌教学设计.docx
- 2023-2024学年人教版小学数学一年级上册5.docx
- 4.1.1 线段、射线、直线 教学设计 2024-2025学年北师大版七年级数学上册.docx
- 川教版(2024)三年级上册 2.2在线导航选路线 教案.docx
- Unit 8 Dolls (教学设计)-2024-2025学年译林版(三起)英语四年级上册.docx
- 高一上学期体育与健康人教版 “贪吃蛇”耐久跑 教案.docx
- 第1课时 亿以内数的认识(教学设计)-2024-2025学年四年级上册数学人教版.docx
文档评论(0)