当前位置:
文档之家› 最大熵原理与应用(2011)
最大熵原理与应用(2011)
p4
1
8 1 3 1 2 1
1
0.3546
35
,
连续情况
• 信源的熵
h p ( x ) ln p ( x )dx
a b
满足
b
a
b
p ( x ) dx 1
p ( x) g
a
r
( x) dx ar
r 1,2,, m
36
连续最大熵分布定理
r 1 m
其中
Z exp(0 ) exp[ r g r ( xi )]
i 1 r 1
n
m
pi e
0
r g r ( xi )
r 1
15
m
最大熵:
H max ln Z r a r
r 1
m
16
•证
求有约束极值
L pi log pi (0 1)( pi 1)
求使H(XY)达到最大值的XY的联合分布.
21
例
解::
H ( XY ) H ( X ) H (Y )
1/ 3 1/ 6 1/ 6 1/12 1/ 24 1/ 24 1/12 1/ 24 1/ 24
22
The Kangaroo Problem
• Information: 1/3 of kangaroos have blue eyes, and 1/3 of kangaroos are left-handed • Problem: On the basis of this information alone, estimate what proportion of kangaroos are both blueeyed and left-handed
i 1 i 1 n n
r [ pi g r ( xi ) ar ]
r 1 i 1
m
n
待定常数 i , i 0,1,, m
17
令
L / pi 0
pi Z 1 exp[ r g r ( xi )]
r 1 m
Z
1
rg
r 1
m
i
( xi )
k 1 log n / log 3 k
最大熵测量例
• 命题3: (3k 1 1) / 2 n (3k 1) / 2 )枚硬币,其 • 设有n( 中有一假,但不知轻重,还有另外的一枚 真币;那么,称k次就能发现假币。
43
最大熵测量例
• 命题4: (3k 1 3) / 2 n (3k 3) / 2 )枚硬币,其 • 设有 n( 中有一假,但不知轻重;那么,称k次就能 发现假币。
11
• Δ主观依据。 • “不充分理由原理”,也叫“中性原理”: 如果对所求的概率分布无任何先验信 息,没有任何依据证明某种事件可能比任 何其他事件更优先,只能假定所有可能是 等概率的。 • 对“不充分理由原理”进行扩展--最大熵原理。
12
Δ客观依据。 • Jaynes提出熵集中定理: 满足给定约束的概率分布绝大多数集 中在使熵最大的区域。具有较大熵的分布 具有较高的多样性,所以实现的方法数也 更多,这样越有可能被观察到。 • Max Plank指出: 大自然好像对较大熵的情况更偏爱。 • 在满足给定约束的条件下,事物总是力图 达到最大熵。
Z exp( 0 )
r exp( r )
18
Z
exp[
i 1 r 1
n
m
r
g r ( xi )]}
rg
i 1 r 1
n i 1
n
m
r
( xi )
ar
g g r ( xi ) k k ( xi ) k 1
m
rg
i 1 r 1
Is there some function of the {pi} which when maximised yields this preferred solution?
26
例
某学校学生中,30%爱好音乐,60%爱 好体育,10%爱好书法,问音乐、体育和书 法都爱好的学生所占比例是多少?
27
例1 做1000次抛掷骰子的试验,求抛掷点 数的平均值。 解 由于抛掷次数很多,所以各点出现的频率 近似等于出现的概率。假定在每次抛掷后,骰 子6个面中的每一个面朝上的概率都相同,即 为1/6。这里我们利用了“不充分理由原理”, 因为除知道骰子有6个面外,我们没有其他任 何别的信息。 抛掷点数的平均值: m=(1+2+3+4+5+6)/6=3.5。#
23
解::
X: 眼睛红,不红; Y:左撇子,非左撇子;
H ( XY ) H ( X ) H (Y )
H ( X ) H (1/ 3) H (Y ) H (1/ 3)
24
解::
最大熵条件;
H ( XY ) H ( X ) H (Y )
1 1 p( x red , y left ) 1/ 9 3 3
25
The Kangaroo Problem: 2 x 2 Truth Table
Normalisation: Constraints: p1+ p2 + p3 + p4 = 1 p1+ p2 = 1/3; p1+ p3 = 1/3
Solution uses a single variable, 0 ≤ x ≤ 1/3 but how to choose? Common sense says x = 1/9 (i.e. no correlation of attributes)
29
2 3 4 5 6 1 21 31 41 51 61 4.5 2 3 4 5 6 1 1 1 1 1 1
计算得
1i 1.44925 i pi 2 3 4 5 6 1 1 1 1 1 1 26 .6637
5
最大熵原理
基本思想:
• 求满足某些约束的信源事件概率分布时,应
使得信源的熵最大
• 可以使我们依靠有限的数据达到尽可能客观
的效果
• 克服可能引入的偏差。
6
一般的最大熵原理应用于良好定义的 假设空间和无噪情况且不完整的数 据的推断问ቤተ መጻሕፍቲ ባይዱ。
7
最大熵原理应用于多个领域:
• 信号检测与处理
• 自然语言处理
• 达到最大值的概率密度
p( x ) Z 1 exp[ r g r ( x )]
m
• 其中
Z
r 1
exp[ g
r a r 1
b
m
r
( x )]dx
• 最大熵为
hmax ln Z
r 1
m
r
ar
37
最大熵测量
为使试验次数最少,需要每次试验的熵最大
H ( X ) H (Y1Y2 YN ) H (Y1 ) H (Y2 | Y1 ) H (YN | Y1 YN 1 )
31
2.鱼、鸡肉、面条和豆腐四种销售份额分别记 为:
p1 , p2 , p3 , p4
H pi log pi
i 1
4
32
2.约束为
p1 p2 p3 p4 1 8 p1 3 p2 2 p3 p4 25/10
33
8 3 2 2.5 2 1 1
n
m
r
( xi )
19
20
例
随机变量集合X,符号集A={a1,a2,a3},随机变量集合Y , 符号集B={b1,b2,b3}.满足:
pX (a1 ) 1/ 2, pX (a2 ) pX (a3 ) 1/ 4
pY (b1 ) 2 / 3, pY (b2 ) pY (b3 ) 1/ 6
8 1 8 1 3 1 3 1 2 1
解得
1 .8359175
34
8 1 p1 8 0.1011 3 2 1 1 1 1
13 p2 8 0.2478 3 2 1 1 1 1
12 p3 8 0.2964 3 2 1 1 1 1
所求分布为计算
( p1 , p2 , p3 , p4 , p5 , p6 ) (0.0543, 0.0788 , 0.1142 , 0.1654 , 0.2398 , 0.3475
30
• 一快餐店出售4种套餐:、鱼、鸡 肉、面条和豆腐,单价分别为8元、3 元、2元和1元。在某月通过调查得知, 该快餐店套餐的总营业额为25万元, 共有10万人次来就餐。试利用最大熵 原理求本月4种套餐所占的销售份额。
28
例1(续) 做1000次抛掷骰子的试验后得知抛掷点数 的平均值为4.5,求骰子各面朝上的概率分布。 解 骰子的各面朝上的概率是不均匀的。除概率的归 一性外,我们知道的信息仅有平均值,这对于确定6 个面的概率是不完整的信息,必须利用最大熵原理。 平均值的约束写为
p1 2 p2 3 p3 4 p4 5 p5 6 p6 4.5
40
最大熵测量例
• 命题1: 设有 n (3k 1 n 3k )枚硬币,其中有 一假,且知其较轻或较重; 那么,发现假币 的最少称重次数k满足:
k 1 log n / log3 k
41
最大熵测量例
• 命题2: 设有n ( 3k 1 n 3k )枚硬币,其中有一 假,且满足:①这些硬币分成两组A、B; A有a枚,B有b枚,a+b=n; ②若假币属 于A,则其较轻;若假币属于B,则其较重 ;那么,发现假币的最少称重次数k满足 :