当前位置:文档之家› 信息熵及其应用

信息熵及其应用


∑p
i =1
i
=1
∫∫ L ∫ H
V
n +1
( p1 , p 2 , L , p n ) dp 1 dp 2 L dp n
1 2
∫∫ L ∫ dp dp
V n
L dp n
V = { ( p1 , p 2 , L , p n ) | p i > 0 , ∑ p i ≤ 1 }
i =1
Ω = { (t1 , t 2 , LL , t n ) | ti > 0, ∑ ti ≤ 1 }
基因型概率分布为
AA a
Aa b 2
aA b 2
aa 1− a − b
解 : 基因型分布的熵为 b b b b f ( a , b ) = − a ln a − ln − ln − (1 − a − b ) ln( 1 − a − b ) 2 2 2 2 b 即在 a + = p 条件下 , 求函数 f ( a , b ) 最大值 2 解得 : a = p 2 , b = 2 p (1 − p )
应用2: 应用 :熵与参数估计的似然函数
设 X 的分布律为 P ( X = x i ) = p i (θ ) ~ 、 ~ 、 、 ~ 为来自总体的样本,将 x x L x
1 2 n
i = 1, 2 , L , m 相同的写在一起 ,
设 x i 有 k i 个, k1 + k 2 + L + k m = n 似然函数为 L = 取对数 ln L =
∫∫L∫ H
V
n +1
( p1 , p2 ,L , pn ) dp1dp2 L dpn
1 2 n V
∫∫L∫ dp dp L dp
n +1 i =1 i i 1 2 V
∫∫L∫ ∑ (− p ln p ) dp dp L dp = ∫∫L∫ dp dp L dp
1 2 n V
n
n + 1 n +1 1 1 n +1 1 = ∑ i / n! = ∑ i (n + 1)! i = 2 i =2
问题的解决
• 提出了平均信息熵的概念 • 推导了计算公式、性质 • 给出了应用:作为信源提供信息 量多少的评价依据。
平均值概念的推广
一元函数 1 y = b − a 二元函数 y = f (x) x ∈ [a, b]

a
b
f ( x ) dx =

a
b
f ( x ) dx /
∫ dx
a
b
y = f ( x1 , x 2 )
n
∫∫ L ∫
f ( x 1 , x 2 , L , x n ) dx 1 dx 2 L dx
∫∫ L ∫ dx
V
1
dx 2 L dx
n
平均信息熵的定义
已知信息熵
n
H n +1 ( p1, p 2, , p n ) = − ∑ p i ln p i L
i =1
n +1
0 < p i < 1, 定义平均信息熵为 H n +1 =
( x1 , x 2 ) ∈ G =
1 y = G 的面积 L 一般情况 y =
V
∫∫
G
∫∫
G
f ( x 1 , x 2 ) dx 1 dx
2
f ( x 1 , x 2 ) dx 1 dx
2
∫∫
G
dx 1 dx
2
y = f ( x1 , x 2 , L , x n )
( x1 , x 2 , L , x n ) ∈ V
平均信息熵公式
• 公式:
H
n
=

n
应用1:识别假币
枚外形相同的硬币, 有12枚外形相同的硬币,其 枚外形相同的硬币 中一枚是假币( 中一枚是假币(重量略有不 ),如何用没有砝码的天 同),如何用没有砝码的天 平用最少次数找出假币? 平用最少次数找出假币?
每个硬币可能是真,也可能是假, 每个硬币可能是真,也可能是假, 且假币可能重一些,也可能轻一些, 且假币可能重一些,也可能轻一些, 故共有24种可能 不确定性为ln24。 种可能, 故共有 种可能,不确定性为 。
最大似然估计即为最小
熵估计
应用3: 应用 :群体遗传学
记两个等位基因为 设基因型概率分布为 A, a ;
A a
A a
AA Aa aA aa b b a 1− a − b 2 2 1b 1b b 则基因 A 的概率为 + =a+ a+ 22 22 2 问在基因 A 的概率确定 (设为 p )的情况下 , 基因型分布的熵何时最 大?
i =1
n
1 ∫∫L∫ dt1dt2 L dtn = n! Ω
0
1 1
1
0
1
1
0
1
∫∫L∫ (−t ln t ) dt dt
Ω i i 1 n
2
L dt n
n
1 n +1 1 = ∫∫L∫ [−(1 − ∑ ti ) ln(1 − ∑ ti )] dt1dt2 L dtn = ∑ (n + 1)! i = 2 i Ω i =1 i =1 H n +1 =
1948年,美国数学家、信息论的 年 美国数学家、 创始人Shannon在题为“通讯的 在题为“ 创始人 在题为 数学理论”的论文中指出: 数学理论”的论文中指出:“信 息是用来消除随机不定性的东 应用概率论知识和逻辑 西”。并应用概率论知识和逻辑 方法推导出了信息量的计算公式 方法推导出了信息量的计算公式
H n ( X ) / ln n
• 问题:该值多大才算提供较多的信息量?
问题的设想
• 提出平均信息熵作为评价依据。
• 以学习成绩比较为例,众所周知,成绩好坏, 除了与最高分比较,更多的是与平均成绩比较, 当某个学生的成绩超过平均成绩时,说明该生 的成绩较好,否则说明应该发奋努力了。 • 在信息论中也是如此,当信源提供的信息量达 到或超过平均信息熵时,可认为已提供了较多 的信息。
由此可见,无论第一代基因型概率分布 为何值,第二代基因型熵即达到最大
多对等位基因 也有相同的结论 A a B b A a B b
Hardy–Weinberg 平衡 (H–W平衡)定律
一个随机交配的群体中,等位基因 频率保持不变,基因型频率至多经过一 个世代也将保持不变。
问题的提出
• 在信息论中,如何评价信源提供信息量 的多少,是一个值得探讨的问题。 • 现在用的是相对率的概念,是以信息熵 与最大信息熵之比 作为依据的。
m

i =1 i
n
k k P ( X = ~i ) = p1k1 p 2 2 L p mm x
∑k
i =1
ln p i = − n ( − ∑
i =1
m
ki ln p i ) n
当 n 较大时,频率近似为概 ln L ≈ − n ( − ∑ p i ln p i )
i =1 m
k 率, i ≈ p i n
公理1:信息量是事件发生概率的连续函数; 公理 :信息量是事件发生概率的连续函数; 公理2:信息量是有限值; 公理 :信息量是有限值; 公理3:如果事件 和事件 的发生是相互独立的, 和事件B的发生是相互独立的 公理 :如果事件A和事件 的发生是相互独立的,则 获知事件A和事件 和事件B将同时发生的信息量是单独获知两 获知事件 和事件 将同时发生的信息量是单独获知两 事件发生的信息量之和。 事件发生的信息量之和。 设事件发生的概率为P, P 则满足上述公理的信息量函数为
平均信息熵及其应用
丁勇 南京医科大学数学教研室
物质、能量和信息是构成客观世界的三大要素。 物质、能量和信息是构成客观世界的三大要素。 信息(information)是什么? 信息(information)是什么? 至今信息还没有一个公认的定义 一般定义:常常把消息中有意义的内容称为信息。 一般定义:常常把消息中有意义的内容称为信息。
例:会堂有20排、每排20个座位。找一个人。 甲告诉消息(A):此人在第10排; 乙告诉消息(B):此人在第10排、第10座。
总不确定性 ln N = ln 400 = 5 . 991 1 1 P ( A) = , I = − ln = 2 . 996 20 20 1 1 P(B) = , I = − ln = 5 . 991 20 × 20 400
I = −c ⋅ log a p
I = − ln p
为应用方便,可取c=1,a=e,单位为奈特(nat)
如何体现不确定性的消除? 信息量函数 I= -lnp 如何体现不确定性的消除?
M = p, 其中 N为基本事件总数, 设P ( A) = N M为事件 A所包含的基本事件数 将N看成总的不确定性, M为事件 A所包含的不确定性 从而获知事件 A发生后,共消除的不确 定性为 N − M 将变量取对数后,不影 响数值大小的单调性, 又能和事件发生的概率 联系起来 ln 将 ln N看成总的不确定性, M为事件 A所包含的不确定性 从而获知事件 A发生后,共消除的不确 定性为 ln N − ln M = − ln p
熵的性质
• • • • • 连续非负性 对称性 扩展性 可加性 极值性:
H n = ln n
当p1 = p2 = L = pn时, 即事件发生的可能性相同时, 熵取得最大值
• 1948年,Shannon提出了熵的概念,并以 此作为信息的度量,宣告了信息论作为 一门科学学科的诞生。 • 近年来,随着计算机应用的发展和信息 时代的来临,信息论理论和应用的研究 更显示出其重要意义。
由信息量公式 I= -lnp 可知 I 是 p 的单调下降函数
相关主题