熵值法原理及应用实践
983 6631 0.8%
984 6635 0.8%
985 7193 0.9%
986 7432 0.9%
987 7993 1.0%
988 8385 1.0%
989 8691 1.1%
990 10038 1.2%
991 10263 1.3%
992 10417 1.3%
993 10936 1.3%
994 11307 1.4%
熵值法原理及应用实践
美商天睿信息系统(北京)有限公司 2013年3月
培训目标
1. 理解熵值法的原理 2. 学会使用熵值赋权 3. 领悟熵值应用实践
熵值法原理及应用实践
1 熵值法是做什么用的? 2 熵值法如何计算权重? 3 怎样合理应用熵值法?
日常工作中常常需要计算指标权重
多元回归赋权法 线性回归 逻辑回归 ……
我们用手游认知客户挖掘模型实例来解说熵值法计算指标权
重的全过程。下图是手游认知客户挖掘模型的二级指标评 价体系,其中各个维度指标对应的权重系数均是通过熵值法
计算出来的。 下面具体看下模型中 “手游认知能力”部分指标权重的计算
过程。
一级
二级
13
3/4/2020
Teradata Confidential
24
3/4/2020
Teradata Confidential
曲线型
Thank you
25
3/4/2020
Teradata Confidential
② 在确定权重前,需要完全确定指标对目标得分的影响 方向。非线性的指标要么剔除,要么进行预处理;
③ 熵值法对底层指标比较适用,而对上层指标权重需要 重点借助专家经验;
④ 不要怕麻烦,好好处理所有指标的极值问题,对权重 的优化有好处;
21
3/4/2020
Teradata Confidential
附录
994 6107 0.9%
995 6107 0.9%
996 6107 0.9%
997 6107 0.9%
998 6107 0.9%
999 6107 0.9%
1000 6107 0.9%
熵值法的一般步骤之三:归一化指标处理
案例解说
方法:指标归一化过程也称之为指标的无量纲化,即将指
标实际值转化为不受量纲影响的指标平价值。方法比较多
17
3/4/2020
Teradata Confidential
熵值法原理及应用实践
1 熵值法是做什么用的? 2 熵值法如何计算权重? 3 怎样合理应用熵值法?
熵值法的优点在于其客观、准确和简便
优点
① 熵值法能深刻反映出指标的区分能力,进而确定权重 。这种思想和我们的得分评价模型指标选择的机理是 一致的;
熵值法的一般步骤之二:清洗指标极值
案例解说
方法:即剔除各指标中极大或者极小的值,一般用比较合
理的上下限值替换这些极值。目的是减少极值数据对该指
标的熵的影响;
原则:剔除占样本总数不到1-2%但指标值贡献率超过
20-30%以上的极值样本
样本id
游戏流量 (K)
贡献率
…
…
…
981 6358 0.8%
982 6401 0.8%
(1 (1
H H
) 手游历史付费 ) 手游访问次数
(1
H
) 手游访问天数
同理可以计算出 W 手游访问次数 W 和 手游访问天数
16
3/4/2020
Teradata Confidential
熵值法的一般步骤之五:指标加权计算得分 案例解说
方法:计算综合得分就是指标合成的过程,一般可以采用
15
3/4/2020
Teradata Confidential
(0,1]
熵值法的一般步骤之四:计算指标“熵”和“权案”例解说
n
fi ln(fi )
熵
H 手游历史付费
i 1
ln n
类似,按此公式还可以继续计算出 H 手游访问次数 和 H 手游访问天数
权
w 手游历史付费
(1
H
手游历史付费 )
1. 计算熵值的数据样本 2. 熵值法的SQL实现脚本 3.无纲量方法一览
22
3/4/2020
Teradata Confidential
附录
附录1. 计算熵值的数据样本
附录2. 熵值法的SQL实现脚本
23
3/4/2020
Teradata Confidential
附录3 无量纲方法一览
直线型
折线型
• 阀值法(临界值法)
1、 yi
xi max
xi
2、 yi
max xi max
xi
xi
3、 yi
x min xi
xi
4、yi
xi max
min xi xi min
xi
• Z-score法
1、 _
zi
xi
s
x
• 比重法
1、 yi
xi xi
2、 yi
xi xi2
详见附录1
Teradata Confidential
熵值法的一般步骤
• 确立指标体系
步骤一
• 清洗指标极值
步骤二
• 归一化指标处理
步骤三
• 计算指标“熵”和“权”
步骤四
• 指标加权计算得分
步骤五
12
3/4/2020
Teradata Confidential
熵值法的一般步骤之一:确立指标体系
案例解说
加法原理和乘法原理; 原则:最常用的是加法合成法,其具体处理如下:
加法合成法
利用以上3个指标的权重和归一化指标值,计算上级指 标的分数: 手游认知能力得分= 0.336*手游历史付费金额
+0.212*手游访问次数 +0.452*手游访问天数。 当然,模型其他部分的底层指标权重和一级指标权重均 可以按以上步骤计算得到,并一层层由下往上进行加权, 最终得到模型的综合得分。
二者结合 使用最有效
5
3/4/2020
Teradata Confidential
“熵”是一种客观的赋权方法
“熵”原本是物理中热力学概念,后来发展为信息论
的熵值法理论,在指标赋权方面的应用比较广泛。
“熵”是不确定性信息的度量(就好比人的身高、体 重,可以用来衡量人的体格):信息量越大,不确定性就越 小,熵也就越小;信息量越小,不确定性越大,熵也越大 。
982 6107 0.9%
983 6107 0.9%
984 6107 0.9%
985 6107 0.9%
986 6107 0.9%
987 6107 0.9%
988 6107 0.9%
989 6107 0.9%
990 6107 0.9%
991 6107 0.9%
992 6107 0.9%
993 6107 0.9%
熵大 熵小
越不确定 越确定
信息量小 信息量大
影响小 影响大
权重小 权重大
6
3/4/2020
Teradata Confidential
指标赋权中熵值法的一般原理
根据熵的特性,我们可以用熵值来判断某 个指标的离散程度:指标熵值越小,离 散程度越大,该指标对综合评价的影响 (即权重)也就越大。
7
3/4/2020
,具体见附录《无纲量化方法一览》;
原则:比较常用的是临界值法和Z-score法(更合理,保持了
数据的连续性,减少数据信息丢失),最终将所有指标转化为正
区间里面,二者具体处理如下:
临界值法
Z-score法
yi
xi max
min xi xi min
xi
_
zi
xi
s
x
分
逻
箱
辑
处
处
理
理
[1,2,3 …,100]
995 14254 1.8%
996 15073 1.9%
997 15326 1.9%
998 16480 2.0%
999 16542 2.0%
14
3/4/2020 1000 61573 7.6%
去极值后
Teradata Confidential
样本id
游戏流量 (K)
贡献率
…
…
…
981 6107 0.9%
Teradata Confidential
熵值法原理及应用实践
1 熵值法是做什么用的? 2 熵值法如何计算权重? 3 怎样合理应用熵值法?
“熵”的一般计算公式
n
fi ln(fi )
H
i 1
ln n
一个规划求 极值问题
其中: fi
Xi
n
Xi
i 1
X ,n为总样本数, i data Confidential
“权”的一般计算公式
wj
(1 H j )
m
(1 H i )
i 1
其中: H j 为第j个指标(维度)的熵,m为指标总数
10
3/4/2020
Teradata Confidential
利用样本数据上感受下熵的变化
11
3/4/2020
② 同其他客观赋权法一样,若无业务经验的指导,权重 可能失真;
③ 对样本的依赖性比较大,随着建模样本变化,权重会 有一定波动;
20
3/4/2020
Teradata Confidential