当前位置:文档之家› 阿里数据整合及数据管理体系解读

阿里数据整合及数据管理体系解读

前段时间给大家推荐了《大数据之路--阿里巴巴大数据实践》,这本书确实内容非常详实,全是干货,值得反复品味。

刚刚看完第9章,讲的是数据整合及管理体系,觉得非常好,设计得非常精妙,只看看觉得还不能深刻理解,遂做个读书笔记按照自己理解重构整理一遍,同时补充上自己的解读分享给大家,推荐给准备搭建数据产品或者数据平台的人。

传统企业的业务变化相对不快,但使用一般的表格文档来管理数据过程也已经越来越困难,更何况互联网这样迅速变化的业务,做好数据整理及管理的难度可想而知,但阿里的数据团队还是形成了完成的方法体系,并把其工具化。

也只有完备方法体系下构建的工具能满足复杂的数据管理需求。

阿里大数据建设方法论的核心就是,从业务架构设计到模型设计,从数据研发到数据服务,做到数据可
管理、可追溯、可规避重复建设。

目标是建设统一的、规范的数据接入层(ODS )和数据中间层(DWD和
DWS ),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系统建设。

所以数据管理体系是包含具体
的方法论以及相关的产品两个部分,通过产品把方法论固化为标准的流程和操作,达到数据管理的目的。

数据体系架构
数据管理体系包括了业务板块划分、数据域提炼、业务过程梳理、原子指标/度量定义、派生指标定义及
管理,维度分析整理以及数据模型的设计。

通过下面的体系架构图来看看数据体系建设的过程、以及每一步做什么和如何做。

另外,如何定义每个术语的涵义,准确定义术语非常关键,有时候描述不清楚复杂的流程、场景最根本是因为对其中的一些概念没有非常很好的厘清。

业务板块:根据业务的属性划分出相对独立的业务板块,业务板块间指标和业务重叠性较低,比如电
商板块涵盖淘宝、天猫、天猫国际、 B2B 系,金融板块涵盖支付宝、花呗、蚂蚁微贷等。

业务板块非常宏观,
可以想象成贾不死的 7大生态。

规范定义:结合行业的数据仓库建设经验和阿里数据自身的特点,设计出的一套过程方法和数据规范命 名体系,规范定义
将用于模型设计中。

规范定义指以维度建模作为理论基础,构建总线矩阵,划分和定义数 据域、业务过程、原子指标 /度量、修
饰类型、修饰词、时间周期、派生指标规则,下图是它们之间的关系, 以及具体实例。

规范定义实例
修矗型
维度
▼ . 1

■ T
楼饰词
戶子洁标!
岖廈隱性!
1
嚴生拦标
<■-
一 一 _
子指标十対刖息割十幔茶词
1
J ----- 1…
二二
— — —
— | — --- ---- na ___ —.1 ——
—j T V
r* .m
_
J — * ・■ — — —
一 一 一 —
1
ir ' 疋总事实表 [杷明唧审冥聚合的事
寰表】
(
明鉅車寬袁
盘原始板度的明堀救据) (把逍担鍵度轲理化的霍表:.
___ t..
ivritw
■近1夫通址奄
的丫 *TTff ](1
009
P*V..WTfl
支讨督糾
P*v _a*Tit
喙巧茗呼
t 金tt 古式
模型设计:以建模理论为基础,基于维度建模总线架构,构建一致性的维度和事实,同时设计出一套表命名规范系统。

维度建模理论很多书上都讲过,这里就不单独整理了。

术语定义及说明
我们重点说说数据域、业务过程、修饰词、原子指标、派生指标。

数据域:是面向业务分析的,将业务过程或者维度进行抽象组合的集合。

其中业务过程是一个个不可拆分的行为事件,在业务过程之下定义指标;维度是指度量的环境,如买家下单事件,买家是维度,订单数量是度量。

数据域是抽象提炼出来的,并且不轻易变动,既能涵盖当前所有业务的业务需要,又能在新业务进入时无影响的分配到已有的数据域中,如果所有分类都不合适才会扩展新的数据域。

数据域不同于产品的功能模块和业务线,是从分析的角度来组织数据指标、维度,功能模块是面向用户功能和管理功能的分类。

从下面的两个表格能很清楚的看出不同,功能模块和业务线是随时扩展的。

那么划分数据域有什么作用呢?主要是因为经过抽象后数据域相对功能模块和业务过程来说少很多,是有效归纳、组织业务过程的方式、同时方便定位指标/度量。

业务过程:指企业的业务活动事件,如下单、支付、退款都是业务过程,这里要注意,业务过程是一个不可拆分的行为事件。

修饰词:指除了统计维度以外的对指标进行限定抽象的业务场景词语,修饰词隶属于一个修饰类型,如在日志域的访问终端类型下,有修饰词PC端、无线端,有点像属性名和具体属性值的意思。

修饰类型是为
了方便管理、使用修饰词。

原子指标:和度量含义相同,基于某一业务时间行为下的度量,不可拆分的指标,具有明确业务含义的名词,如支付金额。

原子指标有确定的字段名称(中英文)、数据类型、算法说明、所属的数据域和业务过程。

原子指标名称=动作+度量,例如支付金额、注册用户数。

除了这些标准度量值的原子指标,还
有些是为了派生指标而建的原子指标,后面讲派生规则时会说到,例如排名型的top_xxx_xxx 。

派生指标:=一个原子指标+多个修饰词+时间周期。

可以理解为对原子指标业务统计范围的圈定,说总支付金额是个笼统的高度概括的汇总指标,其业务范围时间并不明确。

加上修饰词后的派生指标
如:最近1天北京买家支付金额(最近1天是时间周期、北京是修饰词、买家作为维度)。

派生指标的英文名=原子指标英文名+时间周期修饰词+序号(_002 );中文名由时间周期修饰词+【其它修饰
词】+原子指标。

厂 F ~h一:1” I w ---- 」__ t ・・ I r = 「一—-------------------------------------------------------------------------------------- ---- ---- - ---- ----- 一一.一丁—一11 "
F图是常用的时间周期修饰词,整理的非常详细
最后说说派生指标的类型和不同类型指标的生成规则,这里的规则不容易理解,需要结合例子花些时间慢慢体会为什么有的是在原子指标的基础上派生,有的必须新建原子指标然后再派生。

其实规则很简单就是
没有可用的原子指标或者不是简单增加限定条件的指标,需要先创建原子指标,例如排名型,TOP10并不能
作为一个原子指标,其并无实际含义,但” Top_n搜索关键词“有明确的业务涵义就可作为原子指标,然
后再扩展”最近60天天猫Top_10搜索关键词“。

派生指标类型及规则
派生指标:分为事务型指标、存量型指标和复合型指标。

事务型指标是指对业务活动进行衡量的指标,
一般会对应一个事件。

例如新发商品数、新增注册会员数、订单支付金额,订单支付金额对应订单支付事
件,这类指标在原子指标上派生。

存量型指标是指对实体对象(商品、会员)某些状态的统计,例如商品总
数、注册会员总数,这类指标需维护原子指标及修饰词,在此基础上创建派生指标,对应的时间周期一般为
“历史截至当前某时间”。

复合型指标是组合事务型指标和存量型指标而成的,例如浏览UV-下单买家数转
换率,有些创建新原子指标,有些在事务型或者存量型指标基础上增加派修饰词派生。

这里说的创建新原子
指标,书上并没有讲地很清楚,理解起来也非常绕,我理解是无法从已有的原子指标派生时,比如计算方式不同,就需要新建原子指标,然后再派生,也不是直接做成原子指标,因为原子指标是无法使用限定词的。

相关主题