当前位置：文档之家› 信息熵及其应用

信息熵及其应用

∑p
i =1
i
=1
∫∫ L ∫ H
V
n +1
( p1 , p 2 , L , p n ) dp 1 dp 2 L dp n
1 2
∫∫ L ∫ dp dp
V n
L dp n
V = { ( p1 , p 2 , L , p n ) | p i > 0 , ∑ p i ≤ 1 }
i =1
Ω = { (t1 , t 2 , LL , t n ) | ti > 0, ∑ ti ≤ 1 }
基因型概率分布为
AA a
Aa b 2
aA b 2
aa 1− a − b
解 : 基因型分布的熵为 b b b b f ( a , b ) = − a ln a − ln − ln − (1 − a − b ) ln( 1 − a − b ) 2 2 2 2 b 即在 a + = p 条件下 , 求函数 f ( a , b ) 最大值 2 解得 : a = p 2 , b = 2 p (1 − p )
应用2：应用：熵与参数估计的似然函数
设 X 的分布律为 P ( X = x i ) = p i (θ ) ~ 、 ~ 、、 ~ 为来自总体的样本，将 x x L x
1 2 n
i = 1, 2 , L , m 相同的写在一起 ,
设 x i 有 k i 个， k1 + k 2 + L + k m = n 似然函数为 L = 取对数 ln L =
∫∫L∫ H
V
n +1
( p1 , p2 ,L , pn ) dp1dp2 L dpn
1 2 n V
∫∫L∫ dp dp L dp
n +1 i =1 i i 1 2 V
∫∫L∫ ∑ (− p ln p ) dp dp L dp = ∫∫L∫ dp dp L dp
1 2 n V
n
n + 1 n +1 1 1 n +1 1 = ∑ i / n! = ∑ i (n + 1)! i = 2 i =2
问题的解决
• 提出了平均信息熵的概念 • 推导了计算公式、性质 • 给出了应用：作为信源提供信息量多少的评价依据。
平均值概念的推广
一元函数 1 y = b − a 二元函数 y = f (x) x ∈ [a, b]
∫
a
b
f ( x ) dx =
∫
a
b
f ( x ) dx /
∫ dx
a
b
y = f ( x1 , x 2 )
n
∫∫ L ∫
f ( x 1 , x 2 , L , x n ) dx 1 dx 2 L dx
∫∫ L ∫ dx
V
1
dx 2 L dx
n
平均信息熵的定义
已知信息熵
n
H n +1 ( p1， p 2，， p n ) = − ∑ p i ln p i L
i =1
n +1
0 < p i < 1，定义平均信息熵为 H n +1 =
( x1 , x 2 ) ∈ G =
1 y = G 的面积 L 一般情况 y =
V
∫∫
G
∫∫
G
f ( x 1 , x 2 ) dx 1 dx
2
f ( x 1 , x 2 ) dx 1 dx
2
∫∫
G
dx 1 dx
2
y = f ( x1 , x 2 , L , x n )
( x1 , x 2 , L , x n ) ∈ V
平均信息熵公式
• 公式：
H
n
=
∑
n
应用1：识别假币
枚外形相同的硬币，有12枚外形相同的硬币，其枚外形相同的硬币中一枚是假币（中一枚是假币（重量略有不），如何用没有砝码的天同），如何用没有砝码的天平用最少次数找出假币？平用最少次数找出假币？
每个硬币可能是真，也可能是假，每个硬币可能是真，也可能是假，且假币可能重一些，也可能轻一些，且假币可能重一些，也可能轻一些，故共有24种可能不确定性为ln24。种可能，故共有种可能，不确定性为。
最大似然估计即为最小
熵估计
应用3：应用：群体遗传学
记两个等位基因为设基因型概率分布为 A, a ;
A a
A a
AA Aa aA aa b b a 1− a − b 2 2 1b 1b b 则基因 A 的概率为 + =a+ a+ 22 22 2 问在基因 A 的概率确定 (设为 p )的情况下 , 基因型分布的熵何时最大？
i =1
n
1 ∫∫L∫ dt1dt2 L dtn = n! Ω
0
1 1
1
0
1
1
0
1
∫∫L∫ (−t ln t ) dt dt
Ω i i 1 n
2
L dt n
n
1 n +1 1 = ∫∫L∫ [−(1 − ∑ ti ) ln(1 − ∑ ti )] dt1dt2 L dtn = ∑ (n + 1)! i = 2 i Ω i =1 i =1 H n +1 =
1948年，美国数学家、信息论的年美国数学家、创始人Shannon在题为“通讯的在题为“ 创始人在题为数学理论”的论文中指出：数学理论”的论文中指出：“信息是用来消除随机不定性的东应用概率论知识和逻辑西”。并应用概率论知识和逻辑方法推导出了信息量的计算公式方法推导出了信息量的计算公式
H n ( X ) / ln n
• 问题：该值多大才算提供较多的信息量？
问题的设想
• 提出平均信息熵作为评价依据。
• 以学习成绩比较为例，众所周知，成绩好坏，除了与最高分比较，更多的是与平均成绩比较，当某个学生的成绩超过平均成绩时，说明该生的成绩较好，否则说明应该发奋努力了。 • 在信息论中也是如此，当信源提供的信息量达到或超过平均信息熵时，可认为已提供了较多的信息。
由此可见，无论第一代基因型概率分布为何值，第二代基因型熵即达到最大
多对等位基因也有相同的结论 A a B b A a B b
Hardy–Weinberg 平衡 (H–W平衡)定律
一个随机交配的群体中，等位基因频率保持不变，基因型频率至多经过一个世代也将保持不变。
问题的提出
• 在信息论中，如何评价信源提供信息量的多少，是一个值得探讨的问题。 • 现在用的是相对率的概念，是以信息熵与最大信息熵之比作为依据的。
m
∏
i =1 i
n
k k P ( X = ~i ) = p1k1 p 2 2 L p mm x
∑k
i =1
ln p i = − n ( − ∑
i =1
m
ki ln p i ) n
当 n 较大时，频率近似为概 ln L ≈ − n ( − ∑ p i ln p i )
i =1 m
k 率， i ≈ p i n
公理1：信息量是事件发生概率的连续函数；公理：信息量是事件发生概率的连续函数；公理2：信息量是有限值；公理：信息量是有限值；公理3：如果事件和事件的发生是相互独立的，和事件B的发生是相互独立的公理：如果事件A和事件的发生是相互独立的，则获知事件A和事件和事件B将同时发生的信息量是单独获知两获知事件和事件将同时发生的信息量是单独获知两事件发生的信息量之和。事件发生的信息量之和。设事件发生的概率为P， P 则满足上述公理的信息量函数为
平均信息熵及其应用
丁勇南京医科大学数学教研室
物质、能量和信息是构成客观世界的三大要素。物质、能量和信息是构成客观世界的三大要素。信息（information）是什么? 信息（information）是什么? 至今信息还没有一个公认的定义一般定义：常常把消息中有意义的内容称为信息。一般定义：常常把消息中有意义的内容称为信息。
例：会堂有20排、每排20个座位。找一个人。甲告诉消息(A)：此人在第10排；乙告诉消息(B)：此人在第10排、第10座。
总不确定性 ln N = ln 400 = 5 . 991 1 1 P ( A) = , I = − ln = 2 . 996 20 20 1 1 P(B) = , I = − ln = 5 . 991 20 × 20 400
I = −c ⋅ log a p
I = − ln p
为应用方便，可取c=1，a=e，单位为奈特（nat）
如何体现不确定性的消除？信息量函数 I= -lnp 如何体现不确定性的消除？
M = p, 其中 N为基本事件总数，设P ( A) = N M为事件 A所包含的基本事件数将N看成总的不确定性， M为事件 A所包含的不确定性从而获知事件 A发生后，共消除的不确定性为 N − M 将变量取对数后，不影响数值大小的单调性，又能和事件发生的概率联系起来 ln 将 ln N看成总的不确定性， M为事件 A所包含的不确定性从而获知事件 A发生后，共消除的不确定性为 ln N − ln M = − ln p
熵的性质
• • • • • 连续非负性对称性扩展性可加性极值性：
H n = ln n
当p1 = p2 = L = pn时, 即事件发生的可能性相同时，熵取得最大值
• 1948年，Shannon提出了熵的概念，并以此作为信息的度量，宣告了信息论作为一门科学学科的诞生。 • 近年来，随着计算机应用的发展和信息时代的来临，信息论理论和应用的研究更显示出其重要意义。
由信息量公式 I= -lnp 可知 I 是 p 的单调下降函数

e商务文档

信息熵及其应用

相关文档推荐：