当前位置：文档之家› 熵值法原理及应用实践

熵值法原理及应用实践

983 6631 0.8%
984 6635 0.8%
985 7193 0.9%
986 7432 0.9%
987 7993 1.0%
988 8385 1.0%
989 8691 1.1%
990 10038 1.2%
991 10263 1.3%
992 10417 1.3%
993 10936 1.3%
994 11307 1.4%
熵值法原理及应用实践
美商天睿信息系统（北京）有限公司 2013年3月
培训目标
1. 理解熵值法的原理 2. 学会使用熵值赋权 3. 领悟熵值应用实践
熵值法原理及应用实践
1 熵值法是做什么用的？ 2 熵值法如何计算权重？ 3 怎样合理应用熵值法？
日常工作中常常需要计算指标权重
多元回归赋权法线性回归逻辑回归 ……
我们用手游认知客户挖掘模型实例来解说熵值法计算指标权
重的全过程。下图是手游认知客户挖掘模型的二级指标评价体系，其中各个维度指标对应的权重系数均是通过熵值法
计算出来的。下面具体看下模型中 “手游认知能力”部分指标权重的计算
过程。
一级
二级
13
3/4/2020
Teradata Confidential
24
3/4/2020
Teradata Confidential
曲线型
Thank you
25
3/4/2020
Teradata Confidential
② 在确定权重前，需要完全确定指标对目标得分的影响方向。非线性的指标要么剔除，要么进行预处理；
③ 熵值法对底层指标比较适用，而对上层指标权重需要重点借助专家经验；
④ 不要怕麻烦，好好处理所有指标的极值问题，对权重的优化有好处；
21
3/4/2020
Teradata Confidential
附录
994 6107 0.9%
995 6107 0.9%
996 6107 0.9%
997 6107 0.9%
998 6107 0.9%
999 6107 0.9%
1000 6107 0.9%
熵值法的一般步骤之三：归一化指标处理
案例解说
方法：指标归一化过程也称之为指标的无量纲化，即将指
标实际值转化为不受量纲影响的指标平价值。方法比较多
17
3/4/2020
Teradata Confidential
熵值法原理及应用实践
1 熵值法是做什么用的？ 2 熵值法如何计算权重？ 3 怎样合理应用熵值法？
熵值法的优点在于其客观、准确和简便
优点
① 熵值法能深刻反映出指标的区分能力，进而确定权重。这种思想和我们的得分评价模型指标选择的机理是一致的；
熵值法的一般步骤之二：清洗指标极值
案例解说
方法：即剔除各指标中极大或者极小的值，一般用比较合
理的上下限值替换这些极值。目的是减少极值数据对该指
标的熵的影响；
原则：剔除占样本总数不到1-2%但指标值贡献率超过
20-30%以上的极值样本
样本id
游戏流量（K）
贡献率
…
…
…
981 6358 0.8%
982 6401 0.8%
(1 (1

H H
) 手游历史付费 ) 手游访问次数
(1

H
) 手游访问天数
同理可以计算出 W 手游访问次数 W 和手游访问天数
16
3/4/2020
Teradata Confidential
熵值法的一般步骤之五：指标加权计算得分案例解说
方法：计算综合得分就是指标合成的过程，一般可以采用
15
3/4/2020
Teradata Confidential
(0,1]
熵值法的一般步骤之四：计算指标“熵”和“权案”例解说
n
fi ln(fi )
熵
H 手游历史付费
i 1
ln n
类似，按此公式还可以继续计算出 H 手游访问次数和 H 手游访问天数
权
w 手游历史付费

(1

H
手游历史付费 )
1. 计算熵值的数据样本 2. 熵值法的SQL实现脚本 3.无纲量方法一览
22
3/4/2020
Teradata Confidential
附录
附录1. 计算熵值的数据样本
附录2. 熵值法的SQL实现脚本
23
3/4/2020
Teradata Confidential
附录3 无量纲方法一览
直线型
折线型
• 阀值法(临界值法)
1、 yi

xi max
xi
2、 yi

max xi max
xi
xi
3、 yi

x min xi
xi
4、yi

xi max
min xi xi min
xi
• Z-score法
1、 _
zi

xi
s
x
• 比重法
1、 yi
xi xi
2、 yi
xi xi2
详见附录1
Teradata Confidential
熵值法的一般步骤
• 确立指标体系
步骤一
• 清洗指标极值
步骤二
• 归一化指标处理
步骤三
• 计算指标“熵”和“权”
步骤四
• 指标加权计算得分
步骤五
12
3/4/2020
Teradata Confidential
熵值法的一般步骤之一：确立指标体系
案例解说
加法原理和乘法原理；原则：最常用的是加法合成法，其具体处理如下：
加法合成法
利用以上3个指标的权重和归一化指标值，计算上级指标的分数：手游认知能力得分= 0.336*手游历史付费金额
+0.212*手游访问次数 +0.452*手游访问天数。当然，模型其他部分的底层指标权重和一级指标权重均可以按以上步骤计算得到，并一层层由下往上进行加权，最终得到模型的综合得分。
二者结合使用最有效
5
3/4/2020
Teradata Confidential
“熵”是一种客观的赋权方法
“熵”原本是物理中热力学概念，后来发展为信息论
的熵值法理论，在指标赋权方面的应用比较广泛。
“熵”是不确定性信息的度量(就好比人的身高、体重，可以用来衡量人的体格)：信息量越大，不确定性就越小，熵也就越小；信息量越小，不确定性越大，熵也越大。
982 6107 0.9%
983 6107 0.9%
984 6107 0.9%
985 6107 0.9%
986 6107 0.9%
987 6107 0.9%
988 6107 0.9%
989 6107 0.9%
990 6107 0.9%
991 6107 0.9%
992 6107 0.9%
993 6107 0.9%
熵大熵小
越不确定越确定
信息量小信息量大
影响小影响大
权重小权重大
6
3/4/2020
Teradata Confidential
指标赋权中熵值法的一般原理
根据熵的特性，我们可以用熵值来判断某个指标的离散程度：指标熵值越小，离散程度越大，该指标对综合评价的影响（即权重）也就越大。
7
3/4/2020
，具体见附录《无纲量化方法一览》；
原则：比较常用的是临界值法和Z-score法(更合理，保持了
数据的连续性，减少数据信息丢失)，最终将所有指标转化为正
区间里面，二者具体处理如下：
临界值法
Z-score法
yi

xi max
min xi xi min
xi
_
zi

xi
s
x
分
逻
箱
辑
处
处
理
理
[1,2,3 …，100]
995 14254 1.8%
996 15073 1.9%
997 15326 1.9%
998 16480 2.0%
999 16542 2.0%
14
3/4/2020 1000 61573 7.6%
去极值后
Teradata Confidential
样本id
游戏流量（K）
贡献率
…
…
…
981 6107 0.9%
Teradata Confidential
熵值法原理及应用实践
1 熵值法是做什么用的？ 2 熵值法如何计算权重？ 3 怎样合理应用熵值法？
“熵”的一般计算公式
n
fi ln(fi )
H
i 1
ln n
一个规划求极值问题
其中： fi
Xi
n
Xi
i 1
X ，n为总样本数， i data Confidential
“权”的一般计算公式
wj
(1 H j )
m
(1 H i )
i 1
其中： H j 为第j个指标(维度)的熵，m为指标总数
10
3/4/2020
Teradata Confidential
利用样本数据上感受下熵的变化
11
3/4/2020
② 同其他客观赋权法一样，若无业务经验的指导，权重可能失真；
③ 对样本的依赖性比较大，随着建模样本变化，权重会有一定波动；
20
3/4/2020
Teradata Confidential

e商务文档

熵值法原理及应用实践

相关文档推荐：