当前位置:文档之家› 大数据分析方法论介绍

大数据分析方法论介绍

大数据分析方法论介绍一. WHY:为什么要做数据分析在目前讲解数据分析的文章里,大多数会忽略数据分析本身的目的。

这会导致我们在执行时,会出现动作变形的情况。

以终为始,才能保证不会跑偏。

个人的理解上,数据分析是为了能以量化的方式来分析业务问题并得出结论。

其中有两个重点词语:量化和业务。

首先讲下量化。

量化是为了统一认知,并且确保路径可回溯,可复制。

统一认知后,才能保证不同层级,不同部门的人在平等话语权和同一个方向的背景下进行讨论和协作,才能避免公司内的人以「我感觉」「我猜测」来猜测当前业务的情况。

路径可回溯可复制指的是,通过量化后的结果,许多优化的方法是可以被找到原因并且可以被复制的。

同样是转化率优化,用A 方案和B 方案,谁的效果会比较好和具体好多少,都是可被预测的。

要想做到量化,需要做到三点:建立量化体系,明确量化重点和保证数据准确性。

1.1 建立量化体系建立量化体系,主要是根据「指标设计方法」,设计业务的「核心指标+拆解指标+业务指标」,最后落地成全公司通用的「指标字典」和「维度字典」。

这种工作一般是由数据分析师或数据PM 来担任完成。

通过这种方式,我们就能初步建立面向全公司全面而系统的量化分析框架,保证日常分析可以做到「逐层拆解,不重不漏」。

1.1.1 指标设计方法讲到指标设计方法,大家可能觉得,之前听过了产品设计方法,程序开发方法,指标这种东西也有设计方法么?确实有,指标设计是一套以准确和易懂为准则,集合统计学和业务效果的方法论。

准确是指能够准确满足衡量目的,易懂是指标算法能直观显示好与坏,并且指标的算法也能够通俗易懂。

这两者很多时候需要有所抉择,准确是第一位的。

举个例子:当我们想衡量一个群体收入的差异性时,用方差还是用基尼系数?方差好懂,但不能显示两个极端的差异性多大。

基尼系数算法不好懂,但能准确描述这个问题。

具体到指标设计,我们需要使用一些常用的统计学工具:以顾客质量分析为例:概况是我们看下顾客的平均支付金额,或者支付中位数,来了解顾客概况。

如果我们想了解这批顾客的质量是都比较好,还是良莠不齐,则需要通过方差和标准差来描述。

如果想知道更详细的内容,可以了解每个区间的用户数是多少,来做判断。

有一些Tips 供大家参考:1.比率指标:关注实际效果(下单转化率,光看下单数是没有用的)2.伴生指标:既要看新客数也要看CAC,确保数量的前提也要确保质量3.防止坏指标:错误指标,虚荣指标,复杂指标这里简单解释下每个Tips 的目标。

之所以采取比率指标和伴生指标,是因为能够明显反映业务的「效率」且能够有效防止因为追求单个指标而导致动作变形。

如果说这辆车能跑十万公里,其实并不能表示这辆车的性能怎么样。

只有「速率=路程/时间」,才能反映这辆车的效率。

同时,如果片面追求速率,会导致汽车在设计时剑走偏锋,给驾驶者带来危险,因此需要再加个「故障率」或「事故率」等伴生指标来确保安全。

坏指标中的「虚荣指标」首次出现《精益数据分析》一书中,作者简单把「PV/UV」等指标都归为虚荣指标。

刚开始时我颇为认可,但后续在实际的应用过程中,发现对于很多业务的监控,这些指标并避免不了。

后续我便把「虚荣指标」更正为「把距离业务目标过远的环节定义为核心监控指标」。

对于一个即时通讯APP 来讲,下载次数,启动用户数,注册用户数需要监控,但不能作为核心监控的指标。

更合适的应该是消息数或「进行过对话的用户数」。

复杂指标往往是各种「指数」,用了很多指标各种加减乘除,这会导致此类指标在发生波动时,很难分析原因。

拥有对指标的定义权和解释权是个段位非常高的事情。

这要求设计者深入了解业务和拥有极高的抽象能力。

对于分析师来讲,拥有指标定义权将凸显出你在业务方的重要性。

当然,这里并不是鼓励大家为了定义指标而定义指标。

寻找业界已有量化方法并在公司内推广,也是件功德无量的事情。

举个美女外卖的「美女厨师率加权指导值」为例。

为避免泄露商业机密,将这个原本用来衡量用户体验的指标换成「美女厨师率」,以下背景也稍作修改,大家领会精神即可。

指标的背景是为了保证用户的用餐体验,美女外卖总部提出每个城市的商家必须配备一定比例的美女厨师。

但城市提出异议:不同城市拥有的商家情况不一样,大型的商家厨师多,美女厨师率会相对较低,不能用统一的值来对比所有城市。

因此总部便设计出来这么一个指导值:将全国商家进行分层,每个层次的商家得出全国平均值,然后各个城市对标平均值产出自身的对标值,即「美女厨师率加权指导值」。

虽然在计算上稍微复杂点,但在实际应用的过程中,BD 们只需要知道总体的差距和每一层商家的差别,很容易针对性的落地和优化。

1.1.2 建立指标体系在根据「指标设计方法」上,如何建立起围绕业务的指标体系呢。

核心是根据业务特征确定核心指标,在核心指标的基础上以不同的角度进行拆解。

然后再慢慢补充其他业务的指标情况。

拆解的时候,要做到按指标拆解而非维度。

比如订单数,也可以拆解为各品类的订单数合计。

这一点可以通过保持上下两层指标名称不一致来避免。

拆解的过程依照金字塔方法论的「逐层拆解,不重不漏(MECE)」。

若拆解出来或业务补充的指标过多,可借鉴数据仓库的「域」概念来管理这些指标,如上图的「交易域」,「商品域」和「用户域」。

在一个规范的指标体系中,已经涉及到元数据管理的领域了。

包括针对指标命名的规范,数据存储和计算的管理等等。

大家有兴趣地可以搜下相关文章,或阅读阿里巴巴新出的《阿里巴巴大数据实践之路》。

下面截取一张来自云栖大会的,关于指标命名规范的PPT 给大家:1.1.3 建设指标维度字典这里是转转公司早期部分的指标维度字典,(Bus Matrix),一定程度上解决了之前公司内对于指标定义不清或不统一的问题。

现在这套东西已经产品化,可以在可视化产品中查看和显示了。

对于暂没能力产品化的公司,建议可由分析师们通过Google Docs 或Wiki 对一些关键和常用的指标进行统一的维护。

对于维度总线矩阵,主要是在以维度建模的数据仓库,设计数据产品,多维度交叉分析时提供框架和基础。

1.2 明确量化重点每个阶段,都应该明确当前的业务重点。

量化体系需要根据业务阶段,更改量化重点及方式。

这同时意味着,有更细节的指标及更大的监控和推广力度。

比如外卖行业早期,经历了看重订单数,到订单额,到新客数+补贴率,到新客数+资金使用效率(交易完成进度/费用完成进度)的历程。

我们可以看到,随着战争的阶段不断升级和变化,从不计成本打下市场份额,到看中订单质量,到存量市场争得差不多了,开始考虑新客数量,同时控制补贴力度,到战争趋于常态化,开始控制整体补贴额度,靠拼效率来战胜对手。

每个阶段,都需要根据不同的战场情况来判断当前重点,从而围绕该重点建立一套360度无死角的分析监控体系。

1.3 确保数据准确性在数据准确性这个话题里,数据产品已经有成熟的数据质量管理方法,涉及了数据源,指标计算和数据呈现等各个环节的监控。

本文主要从分析师的角度阐述确保准确性的方法,数据产品相关的就先不赘述了。

1.采取可信来源:多来源交叉确认,采用新来源时需格外小心2.确认加工方式:指标定义和加工算法3.Double Check:量级,计算逻辑和业务常识这里着重讲下Double Check 的技巧,这些技巧可以让很多管理层或投资人在不了解业务的前提下,就能判断出来数据是否有问题。

量级Check:每个数据有它的大概范围,比如DAU,WAU 和MAU。

计算逻辑Check:一般对于整体部分型的分数,比如市场份额,那么它必须满足:1,取值最大不能超过1;2,各部分加和应为1;3,两数字加和后,和应该在中间范围内。

业务常识Check:根据其他常用数字推算出该业务范围。

如果有人跟你说某某社交APP DAU 过亿,你大概知道是否在吹牛,因为日活过亿的APP 就那么几个。

对于DAU/MAU,各个行业都有响应的范围值,淘宝为:34.6%,天猫15.5%,京东15.8%。

1.4 站在业务方的角度除了「量化」之外,另外一个重点词语是「业务」。

只有解决业务问题分析才能创造价值。

价值包括个人价值和公司价值。

对于公司来讲,你提高了收入水平或者降低了业务成本,对于个人来讲,你知道怎么去利用数据解决业务问题,这对个人的能力成长和职业生涯都有非常大的帮助。

如何站在业务方的角度思考问题呢,总结起来就是八个字「忧其所虑,给其所欲」。

这里不仅适用于分析师这个岗位,在所有以供需为主要关系的交互过程里,精准理解对方需求对于供给方都是最重要的。

比如PM 对于用户,分析师对于业务方,下级对于上级。

在具体的落地过程中,主要是在这以下几个环节1.沟通充分2.结论简明3.提供信息量及可落地建议4.寻求反馈在沟通上,确定业务方想要分析什么,提出更合理专业的衡量和分析方式,同时做好节点同步,切忌一条路走到黑。

在分析业务需求上,跟很多产品需求分析方法论是类似的,需要明确所要数据背后的含义。

举例来讲,业务方说要看「页面停留时长」,但他实际想要的,可能是想衡量用户质量,那么「留存率」「目标转化率」才是更合适的指标。

在阐述分析结果上,要记得结论先行,逐层讲解,再提供论据。

论据上,图> 表> 文字。

因为业务方或管理层时间都是有限的,洋洋洒洒一大篇邮件,未看先晕,谁都没心思看你到底分析了啥。

需要做到,在邮件最前面,用1-3 句话先把结论给出来,即使需求方不看后续内容都可以了解你报告80% 的内容。

在「提供信息量及可落地建议」上,先要明白什么叫信息量:提供了对方不知道的信息。

太阳明天从东方升起不算信息量,从西方升起才是。

在分析的过程中,一定要从专业的角度,从已知边界向未知边界进军,力求角度新颖论证扎实,并且根据分析内容给出可落地的建议。

举个简单例子:。

相关主题