财贸研究2007.6当代贝叶斯计量经济学分析框架与展望李小胜1,2夏玉华1(1.厦门大学,福建厦门361005;2.安徽财经大学,安徽蚌埠361005)摘要:随着贝叶斯理论的发展和计算机模拟等数值计算技术的提高,贝叶斯计量经济学开始迅速发展起来。
本文通过对经典学派与贝叶斯学派进行比较,简要回顾了贝叶斯计量经济学的发展历程,并从八个方面对贝叶斯计量经济学研究过程中的分析框架进行说明,最后进行了展望。
关键词:贝叶斯计量;先验分布;后验分布;伸缩性Zell n er的5An I ntroduction to Bayesian Analysi s i n Econo m etrics6一书的出版标志着贝叶斯计量经济学的真正诞生。
该书较为全面地阐述了贝叶斯计量经济学的大多数专题,其中包括回归模型中的大多数问题、联立方程模型和时间序列模型等的贝叶斯计量方法。
此后,研究贝叶斯计量经济学的文献开始大量出现。
当代许多杰出的计量经济学家如Ge w eke,L itter m an,De m pster,S i m s,M addala,Chib等都应用贝叶斯计量经济学解决经济问题。
Q i n(1996)对贝叶斯计量经济学理论发展进行了回顾。
Po irier (2006)对国外1970)2000年间几种重要的期刊在经济和计量经济学文章中使用的贝叶斯方法数量发展速度进行了回顾。
国内研究贝叶斯理论的人员很多,但是研究贝叶斯计量经济学的文献并不是很多,只有朱慧明、韩玉启(2006)研究了贝叶斯计量经济学的几个重要专题,并深入地进行了讨论。
虽然贝叶斯计量经济学作为一种科学的数据分析的方法早已经存在,但贝叶斯计量经济学分析应遵循的基本框架是什么?本文就此分八个部分进行阐述,并对其发展和应用前景进行展望。
一、贝叶斯学派与经典学派之间的差异及其分析的优点统计学发展过程中产生了两个主要学派:经典学派与贝叶斯学派。
经典学派又叫频率学派,其发展已有几百年的历史。
而贝叶斯学派的发展历史不过50多年,在贝叶斯学者的努力下,打破了经典统计一统江山的局面,两个统计学派共同发展起来,而且不同的派别各自有大量的追随者(茆诗松,1999)。
贝叶斯学派与经典学派之间的差异是明显的。
首先,两个学派的核心差别是对于概率的不同定义。
经典学派认为概率可以用频率来进行解释,估计和假设检验可以通过重复抽样来加以实现。
而贝叶斯学派认为概率是一种信念。
结合这种信念加以假设检验(先验机会比),当数据出现以后就产生后验机会比。
这种方法结合了先验和样本信息辅助假设检验。
其次,两者使用的信息不同。
经典学派使用了总体信息和样本信息,总体信息即总体分布或总体所属分布族的信息,样本信息即抽取样本(数据)提供给我们的信息。
而贝叶斯学派除利用上述两种信息外,还利用了一种先验信息,即总体分布中未知参数的分布信息。
两者在使用样本信息上也有差异,经典统计对某个参数的估计^H说是无偏的,其实是利用了所有可能的样本信息,贝叶斯学派只关心出现了的样本信息。
而且贝叶斯学派将未知参数看作是一个随机变量,用分布来刻划,即抽样之前就有有关参数问题的一些信息,先验信息主要来自经验和历收稿日期:2007-08-15作者简介:李小胜(1976-),男,安徽枞阳人,安徽财经大学讲师,厦门大学博士生,主要研究方向为统计理论与方法。
夏玉华(1972-),男,湖北麻城人,讲师,厦门大学博士生。
主要研究方向为产业组织理论与政策。
史资料。
而经典统计把样本看成是来自具有一定概率分布的总体,所研究的对象是总体,而不局限于数据本身,将未知参数看作常量。
贝叶斯方法的优点很多。
例如:与频率方法比较贝叶斯方法充分利用了样本信息和参数的先验信息,在进行参数估计时,通常贝叶斯估计量具有更小的方差或平方误差,能够得到更精确的预测结果;贝叶斯H PD(最大后验)置信区间比不考虑参数先验信息的频率置信区间短;贝叶斯方法能对假设检验或估计问题所做出的判断结果进行量化评价,而不是频率统计理论中的接受、拒绝的简单判断;在基于无失效数据的分析工作,贝叶斯统计有着更大的优点(韩明,2005)。
二、贝叶斯定理的表述贝叶斯方法的一个关键元素是贝叶斯定理,通常又叫反概率原理。
当先验分布和后验分布都是连续形式时:用H表示我们关心的参数向量或矩阵,用y表示来自联合密度函数f(y B H)的样本观测值向量或矩阵,联合密度函数又可以写成f(y|H),函数f(y|H)在代数上等同于H的似然函数,它包含了关于H的所有样本信息,在贝叶斯理论中由于H是随机变量,f(y|H)是给定H的条件下y的条件密度函数,而且有h(H,y)=f(y|H)P(H)=P(H|y)f(y)。
其中h是H和y的联合密度函数,P是H的先验密度函数,它包含了关于H的非样本信息,通常将上式重新排列得到结果P(H|y)=f(y|H)P(H)f(y)。
由于f(y)是与H无关的一个常数,上式可写成:P(H|y)W f(H|y)P(H),其中W表示/与,,成比例0,若用文字表述就是:后验密度W似然函数@先验密度。
这就是贝叶斯定理的连续形式,它把先验信息、样本信息和总体信息融为一体。
贝叶斯后验均值估计的最基本特性是伸缩性(shri n kage)。
当似然函数的精度h0较大时,后验均值主要受样本均值支配;相反,当先验精度h1较大时,后验均值主要受先验均值支配。
这就是为什么贝叶斯估计通常取先验精度较低的原因(方差给得较大),也可以看出贝叶斯估计在调整先验精度下可以达到经典估计的效果,从某种意义上说经典估计是贝叶斯估计的特殊形式。
通过两种精度的调整达到对后验均值的估计叫做伸缩性估计特性,所有贝叶斯估计的均值都具有伸缩性估计这个特性。
三、先验分布理论的研究从上面已经看出,似然原理在贝叶斯学派和经典学派都有应用,而区别在于解释不同。
除了似然原理外,贝叶斯定理得到后验分布的另外一个元素就是参数H的先验分布。
先验分布是后继贝叶斯推断的基础和出发点,是贝叶斯学派研究的重点问题之一,也是贝叶斯理论有争议最多的部分。
先验分布大体可以分为扩散先验(d iffuse prior)分布和共轭先验(con j u gate pri o r)分布两大类。
此处的扩散先验即一般文献中的无信息先验分布(noninfor m ati v e prior)。
当然无信息先验分布并非一无所知,实际包含许多信息,至少知道该参数是位置参数还是尺度参数。
共轭先验分布是指这个先验分布与似然函数相乘后,得到的分布与先验分布函数形式一样,即属同一个分布族。
这种先验的好处是,当一个新的样本被观察后,关于参数H的后验分布有同样的解析形式,只需带入超参数和样本值,就可以计算出后验的均值和方差。
参数的先验分布的选取方法之一是贝叶斯假设,即假设参数的先验分布在取值范围内是均匀分布的:若将H的取值范围记为(,并略去密度取值为0的部分,则参数H先验分布密度函数为:P(H)W a constant时,这时先验叫i m proper pri o r或叫flat prior。
因为这个分布积分不为1(概率公理不满足)。
通常,贝叶斯假设在参数变换下并不满足不变性的要求,即变换后的分布不再服从均匀分布。
如果参数H选取均匀分布作为其先验分布,根据贝叶斯假设,H的函数P(H)也应选取均匀分布作为其先验分布,然而由H服从均匀分布这一前提,往往导不出P(H)也服从均匀分布。
例如正态总体标准差为R,它的参数空间是(0,]),为能变换,我们选取贝叶斯假设R~U(0,1),即f(R)=1,0<R<1,其它情况密度为0,取它的一个变换G=R2,这是一一变换,根据随机变量函数的变换,g(G)=f(R)@1/2R= 1/2R,可以看出G的密度已不是均匀分布了,而是与随机变量R有关了。
针对贝叶斯假设在变换下并不满足不变性,Jeffreys(1961)建议对于参数在有限范围内或-]到+]范围内取任意值,它的先验分布应取成均匀分布,若它的可能取值范围是从0到]之间,则它取对数后的先验分布应是均匀分布。
所以位置参数的先验应与一个常数成比例,尺度参数应与自己的逆成正比,例如来自正态分布N(L,R2)的样本的扩散先验应为P(L,R)W1/R。
Jeffreys(1961)根据不变性的要求,又提出了一种基于F isher信息阵的多参数模型扩散先验分布选择方法。
若令L(H)为似然函数,Jeffreys认为参数先验分布应与Fisher信息阵的行列式的平方根成比例:P(H)W[det I(H)]1/2,其中I(H)=E-52l o gL5H5H T,Zell n er(1971)详细研究了Jeffreys先验分布能够满足的各种不变性要求。
所以在贝叶斯计量经济学中讨论位置参数H的扩散先验应为P(H)W1,H I(,尺度参数的扩散先验分布为P(H) W1/H,H>0;对于正态分布N(L0,R2),L0已知,R>0未知,此时标准差R是尺度参数,那么标准差R的扩散先验分布应为:P(R)W1/R,R>0。
对于正态分布N(L,R20),R20已知,此时L是位置参数,那么其扩散先验分布应为P(L)W1,L I R。
位置)))尺度参数的联合扩散先验分布形式为:P(H1,H2)W1/H2,H1I R,H2>0。
对于多元正态分布N m(L,r),其参数(L,r)的扩散先验分布密度函数为P(L,r)W1/|r|(m+1)/2, L I R m,r>0。
由于共轭先验分布有着明显的优点。
所以Raiffa和Schla ifer建议,假设y1,y2,,,,y n是来自正态总体N(L0,R2)的一个随机样本,L0是一个已知常数,R2>0未知,则参数R的共轭分布为逆G a mm a分布族;若y1,y2,,,y n是来自正态总体N(L,R2)的样本,L、R2>0均为未知的参数,则参数向量H=(L,R)T的共轭分布族为正态)))逆Ga mm a分布;若y1,y2,,,y n是来自m维正态分布N m(L0,r)的样本,此处L0为已知的常数向量,r>0为未知参数阵,则精度阵r-1的共轭分布族为逆W ishart分布;若y1,y2,,,y n是来自m维正态分布N m(L,r),L,r-1未知,则参数(L,r-1)的共轭分布族为正态)))W ishart分布。
(Press,1989)四、贝叶斯点估计参数的后验密度概括了参数的所有信息。
因此,一旦得到参数的后验密度,就可以对参数进行研究。
在确定参数的具体值(点估计)时,就要依据某个准则来决定哪一个值最佳。
若最佳估计值的选取依赖于用^H来估计真参数H时所造成的损失。
一般来说,当估计值^H离参数真值H越远,损失就越大。
描述点估计^H与真参数H间的函数L(H,^H)称为损失函数。