基于熵模型的多维变量熵不确定度摘要:基于信息熵概念在测量精度分析中的应用特点,从理论上推出信息熵和不确定度的关系式。
试图寻找合适的模型,将已知一维随机变量的熵不确定度指标推广到二维、三维和N维的情况,得出多维变量的熵不确定度指标的统一公式,并对结果加于讨论和验证。
关键词:熵不确定度;信息熵;多维随机变量;1 熵与不确定度的关系首先我们从理论上推出信息论中的熵和误差理论中的不确定度的关系式,并着重说明二者在物理意义上的一致性。
1.1 信息论中的熵在信息论中,熵可用作某一事件不确定度的量度。
信息量越大,体系结构越规则,功能越完善,熵就越小。
利用熵的概念可以从理论上研究信息的计量、传递、变换和存储。
信息论中的熵:由信息论的创始人Shannon在著作《通信的数学理论》中提出,并建立在概率统计模型上的信息度量。
他把信息定义为“用来消除不确定性的东西”。
Shannon公式:I(A)=-log P(A)(1)公式中:I(A)为度量事件A发生所提供的信息量,称之为事件A的自信息;P(A)为事件A发生的概率。
熵定义为信息量的概率加权统计平均值:如果一个随机试验有个可能的结果,或一个随机消息有n个可能值,若它们出现的概率分别为P\-1,P\-2…,P\-n,则这些事件的自信息的平均值:H=-SUM(P\-i×log(P\-i)),i=1,2,…,n。
[JY](2)或H(x)=-∫p(x)log p(x)dx(连续型)[JY](3)式中p(x)为概率密度函数。
1.2 误差理论中的不确定度测量不确定度是与测量结果相联系的参数,是表示对测得值不能肯定的程度的分散性参数。
当此参数以标准差表征时,其不确定度为标准不确定度;当此参数以标准差σ乘以一个倍数k表征时,不确定度为扩展不确定度,这一倍数称为包含因子,也称其为置信系数。
不确定度可表示为:U=kσ[JY](4)1.3 熵与不确定度的关系由上面对信息熵和不确定度的含义分析,可以得出它们共有的一个特性:都代表随机事件的不确定性。
熵代表随机事件的平均不确定性,具有普遍性;不确定度代表测量结果(或误差)的不确定性,适用于对计量学中的数据处理。
对于常见的几种典型分布,如正态分布、均匀分布和指数分布,根据式(3)和已知的概率密度函数,可分别求出它们的熵与方差的关系,并由此推出熵与不确定度的关系。
正态分布:H(x)=-∫p(x)log p(x)dx =-∫[DD(]-∞[]∞[DD)]p(x)log[SX(]1[]P[KF(]2π[KF)]σ[SX)]e\{x2/2σ2\}dx=[SX(]1[]2[SX)]log(2πeσ2) [JY] (5)均匀分布:H=[SX(]1[]2[SX)]log(12σ2)指数分布:H=[SX(]1[]2[SX)]log(e2σ2)下面把式(4)代入,得到熵与不确定度的关系式:H=[SX(]1[]2[SX)]log(4π2σ2)=log(2U)[JY](6)由式(5)和式(6)得正态分布时的k=2.0662 多维随机变量的熵对于n维连续随机变量为X=(x\-1,x\-2,…,x\-2)T,设它的概率密度函数为p(x\-1,x\-2,…,x\-n),则它的联合熵H(X)定义为H(X)=-∫…∫p(x\-1,x\-2,…,x\-n)logp(x\-1,x\-2,…,x\-n)dx\-1,dx\-2…dx\-n则n维连续随机变量X的概率密度为:P(x)=[SX(]1[](2π)\{n/2\}|∑|\{1/2\}[SX)]•exp[JB({]-[SX(]1[]2[SX)](X-μ)T∑\{-1\}( X-μ)[JB)}][JY](7)其中:μ是n维均值向量,∑是n×n维协方差矩阵,|∑|是∑的行列式。
设:k2=(X-μ)T∑\{-1\}(X-μ)上式为一个正定二次型,正定二次型有着明显的几何意义,当n=2,即二维的正定二次型,其几何图象是一族椭圆;当n=3,其几何图象则是一族椭球面;n维时,其几何图象为n维几何空间中的一族同心超椭球面,中心为(μ\-1,μ\-2,…,μ\-n),超椭球面的主轴方向由∑阵的特征向量决定,主轴的长度与相应的协方差矩阵∑的特征值成正比。
超椭球体的大小是观测向量对于均值向量的离散度度量。
在数理统计中,称为X到μ的Mahalanobis distance(马氏距离),等密度点的轨迹是X到μ的Mahalanobis distanc为常数的超椭球面。
Mahalanobis distanc为k的超椭球体的体积为V=V\-n|∑|\{[SX(]1[]2[SX)]\}kn[JY](8)维连续随机变量在Rn空间服从等概率的均匀分布,其概率密度为:V\-n=[JB({]1/V (x-μ)T∑\{|-1\}(x-μ)≤k20 (x-μ)T∑\{-1\}(x-μ)>k2[JB)]则它的熵为:H(X)=ln V=ln(V\-n|∑|\{1/2\}kn)[JY](9)若n维连续随机变量XX在Rn空间服从正态分布,它的熵为:H(x)=ln{(2πe)\{n/2\}|∑|\{1/2\}}[JY](10)3 基于熵模型的讨论设n维随机变量X在一个有限范围内取值,根据最大熵定理:n维连续变量X在超椭球体内服从均匀分布时具有最大熵。
设最大初始熵为H(X),测量后对随机变量X的不确定度缩小为疑义度H(x/x\-n),又称剩余熵,两者之差就是香农信息I,即:I=H(x)-H(x/x\-n)=ln V\-1-ln V\-2=ln [SX(]V\-1[]V\-2[SX)]=ln n[JY](11)其中:V\-1和V\-2分别为超椭球体的体积,n表示两者的倍数。
信息论关心的是熵差(获得的信息),而不是熵本身的大小,也就是说,我们希望能够确定剩余熵所对应的不确定度半径。
对于n维随机点的位置不确定性可用熵意义下的超椭球体来度量,而要确定这个超椭球体,关键是确定熵系数k。
3.1 熵系数k的确定根据均匀分布信源,即峰值功率受限下具有最大熵的信源,如果超椭球体由正态分布的熵确定,则V=e\{H\-\{max\}(x/x\-n)\}=(2πe)\{n/2\}|∑|\{1/2\}[JY](12)设熵意义下的超椭球体的标准方程为:[SX(]v2\-1[]λ\-1[SX)]+ [SX(]v2\-2[]λ\-2[SX)]+…+[SX(]v2\-n[]λ\-n[SX)]≤k2其中λ\-1, λ\-2,…,λ\-n为协方差矩阵∑的特征值。
令:a\-i=k[KF(]λ\-i[KF)] (i=1,2,…,n)则:[SX(]v2\-1[]a2\-1[SX)]+[SX(]v2\-2[]a2\-2[SX)]+…+[SX(]v2\-n[]a2\-n[SX)]≤1其中a\-1,a\-2,…,a\-n为各主轴的信息半径,熵系数k:k=n[KF(][SX(]e\{H\-\{max\}(x)\}[]v\-n|∑|\{1/2\}[SX)][KF)]=[SX(][KF(]2πe[KF)][]n[KF(]v\-n[KF)][SX)][JY](13)3.2 n=1,2,3时随机点落入熵模型内的概率维随机点落入超椭球体内的概率:dP=P(x)V\-n|∑|\{1/2\}nk\{n-1\}dkP=[SX(]nV\-n[](2π)\{n/2\}[SX)]∫k\-0exp (-k2/2)k\{n-1\}dk[JY](14)推论:当n=1,V\-1=2时k=[KF(]2πe[KF)]/2此时超椭球体蜕变为一个区间,根据式(19),该区间的长度d为d=[KF(]2πe[KF)]σ则不确定度(△)为d/2,即:△=[KF(]2πe[KF)]σ/2=kσ-2.066σ这个结果与我们在本文1.3节中得出的结果相同,验证了n维随机变量熵不确定度公式的正确性。
当n=2时,V\-2=π,k=[KF(]2e[KF)]此时熵不确定椭球退化为熵不确定椭圆,二维随机点的熵不确定椭圆方程为:[SX(]v2\-1[]a2\-1[SX)]+[SX(]v2\-1[]a2\-1[SX)]=1当n=3时,V\-3=4π/3,k=3[KF(][SX(]3[]4π[SX)][KF)][KF(]2πe[KF)]此时熵不确定椭球退化为熵不确定椭球,三维随机点的熵不确定椭球方程为:[SX(]v2\-1[]b2\-1[SX)]+[SX(]v2\-2[]b2\-2[SX)]+[SX(]v2\-3[]b2\-3[SX)]=1根据式(14)求出一维、二维和三维时的概率列表如下:表1 n=1,2,3时随机点落入熵模型内的概率维数n[]熵模型蜕变为[]熵系数k[]概率P(%)1[]区间[]2.066[]96.12[]椭圆[]2.332[]93.43[]椭球[]2.564[]91.3由表1做图可得:图1 n=1,2,3时随机点落入熵模型内的概率由图可见,熵系数k与维数n呈正相关,概率P与维数n呈负相关。
4 结束语本文基于信息熵概念在测量精度分析中的应用特点,推出信息熵和不确定度的关系式。
引入熵不确定度模型,将已知一维随机变量的熵不确定度指标,推广到二维、三维和N维的情况,得出多维变量的熵不确定度指标的统一公式。
多维随机变量的熵不确定度,与传统的误差模型有着本质的区别,它不再是任何意义上的置信度,而是一种确定的、与置信水平无关的不确定模型。
熵不确定指标是随机点不确定性出现出现的基本范围,在其内集中了随机点的主要不确定信息,落入其外的可能性极小。
参考文献:[1] 陈丽英.略论信息论在误差理论中的应用[J].长春邮电学院学报,1999(2).[2] 李大军.多维随机变量的熵不确定度[J].计量学报,2006(3).[3] 刘智敏.不确定度及其实践[M].北京:中国标准出版社,2000.。