1.1 层次贝叶斯模型
经典的推断分析模型、空间回归模型、空间面板模型有一个共同的特点:这些模型的求解完全依赖所采集的样本信息。
然而,在业务实践中,在收集样本之前,研究者往往会对研究对象的变化或分布规律有一定的认识。
这些认识或是来自长期积累的经验,也可能来自合理的假设。
由于这些认识没有经过样本的检验,所以我们可以称之为先验知识。
比如我们要研究某地某疾病月发病人数的概率分布。
即使没有进行统计调查,我们根据一些定理和合理假设,也可以知道发病数服从泊松分布。
甚至根据医院日常接诊的经验,可以推算出发病人数大概在哪个区间。
这种情况下,对于发病人数分布形态和大致区间的认识,属于先验知识。
先验知识对我们探索研究对象的变化规律会有很大的帮助。
而经典的推断分析模型、空间回归模型、空间面板模型都没有利用先验知识,导致了信息利用的不充分。
而本节所要谈到的层次贝叶斯模型,会结合先验知识和样本信息,对数据进行推断分析。
由于层次贝叶斯模型能有效利用先验知识和样本信息,因此可以提高推断的准确度或降低抽样的成本。
(1)贝叶斯统计原理简介
在介绍层次贝叶斯模型之前,有必要首先简单阐述一下贝叶斯统计的基本原理。
贝叶斯统计的基础是贝叶斯定理:
(|)()
(|)()P B A P A P A B P B = (1)
其中: ()P A 是事件A 的先验概率(例如,某专家通过经验或之前的研究得出乙肝发病率为10%,这就是一个先验概率),()P B 是事件B 发生的概率,且()0P B ≠,(|)P A B 是给出事件B 后事件A 的后验概率。
(|)/()P B A P B 是事件A 发生对事件B 的支持程度,即似然函数。
对(|)/()P B A P B 可以有如下的理解:设(|)/()P B A P B n =,则在事件A 发生的条件下,事件B 发生的概率是不知A 是否发生的条件下的n 倍。
使用贝叶斯方法的一个重要目的,就在于得出随机变量的概率分布及各因素对分布的影响。
要实现这一目的,首先按如下公式进行参数反演:
(|)(|)()f D Cf D f θθθ= (2)
其中,θ是待估参数,D 为观测数据()f θ为θ的先验概率密度函数,(|)f D θ为已知数据D 时,参数θ的似然函数,C 为归一化常数。
(|)f D θ是参数θ的后验概率密度函数。
通过(|)f D θ可以分析因素对参数分布的影响。
例1:设~(,1)X N θ,通过某批样本的样本信息和先验信息,得出:~(13,1)N t θ+。
其中t 是时间。
那么~(13,1)N t θ+就反映了时间对X 的某种影响规律,比如从期望意义上说,时间没推进一个单位,X 就要增长3个单位。
式(2)反映出贝叶斯统计的一个重要特征,即分布的参数不再是固定值,而是随机变量,服从某种分布。
得出(|D)f θ后,便可以根据如下公式得出随机变量X 的密度函数()X f x :
()(|)(|)X X f x f D p x d θθθθ∈Θ=⎰ (3)
其中,(|)X p x θ为θ给定的条件下X 的概率密度函数,Θ为参数空间。
例2:承接例1,当0t =时,有:
2
(1)(|)]
2f D θθ-=- (4) 2
()(|)]
2X x p x θθ-=- (5) ()(|)(|)X X f x f D p x d θθθ+∞
-∞
=⎰ (6) 注意:θ未必是一维的数,有可能是多维的参数向量。
比如若将例1中的X
的分布改为:2~(,)X N μσ,则参数向量(,)θμσ=。
当待研究总体可以分为互相存在异质性的多个子总体时,就可以构建层次贝叶斯模型,对变量在更高层次上的统计特征进行描述。
在层次贝叶斯模型中,一个参数的先验分布也包含着待估参数,这样的参数被称为超参数。
比如,在例1中,若θ的先验分布中没有待估参数(比如~(0,10)U θ),则模型中没有超参数,模型为非层次的贝叶斯模型。
若θ的先验分布中有待估参数,比如~(,)U a b θ,则a ,b 为超参数,模型为层次贝叶斯模型。
对于不同的子总体,其参数θ的先
验分布类型可以是相同的,并用超参数描述。
但每个子总体的参数的分布参数未必相同,需要结合样本信息进行估计。
(2)层次贝叶斯模型的构造与举例
在时空数据中,每个时空子集内的子总体,可能有着各自不同的统计特征,并且各子总体之间还可能存在着相关性。
这时可以通过层次贝叶斯模型分析待研究总体的统计特征和变化规律。
层次贝叶斯模型是一种特殊的层次贝叶斯模型,这种模型考虑了数据在空间或时间(或两者兼有)上的相关性和异质性。
层次贝叶斯模型的一个基本架构如下:
()A it i t it B ϕθαδ=+++ (7)
其中,i 为空间标记,t 为时间标记,it θ为空间中i 处,t 时刻的待估参数值,ϕ为某种变换(如恒等变换或对数变换),α为截距项。
i i i A u v =+,描述空间效应,其中i u 为空间相关性,i v 为空间异质性。
t B 为时间效应,也可以分为相关性t r 和异质性两部分t s ,即t t t B r s =+。
it δ为时空交互效应。
当有些效应不明显时,可以在模型中排除相应的项。
在这一基本模型之上,还可以考虑不同时空尺度的影响,以及其他协变量的影响。
在模型中的诸项,都需要为其指定先验分布。
先验分布的指定,依赖于已知的信息和各种模型。
例3:一个简单的层次贝叶斯模型。
设i Z 是某地区i 患有某种疾病的人数。
i Z 的先验分布是参数为i λ的泊松分布。
其中i i i E r λ=,i E 为地区i 总人口期望值,i r 为地区i 该种疾病的发生率。
i r 的先验分布为对数正态分布,参数为i μ和2i σ,即2ln ~(,)i i i r N μσ。
构建层次贝叶斯模型:
lnr i i i u v α=++ (8)
其中,α为截距项,先验分布为(0,1)U 。
i v 描述空间相关性。
其先验分布指定如下:
2~(0,)i u N κ (9)
21
1
1|~(,
)n ij j
j i j n n ij ij
j j w u u u N w w κ===∑∑∑ (10) 其中,ij w 为空间权重矩阵因子。
这里使用了条件自回归(Conditional Auto Regressive ,CAR )模型。
i v 描述空间异质性,先验分布为2(0,)N σ。
21/κ,21/σ的先验分布都是(0.001,0.001)Gamma 。
例4:具有不同空间尺度的层次贝叶斯模型。
设:
11~()it it X Poisson θ,22~()jt jt X Poisson θ
其中,i ,j 为地点标记,t 为时间标记,下标1表示较小的空间尺度(如区县),简称水平1。
下标2表示较大的空间尺度(如地市),简称水平2。
两种不同的空间尺度之间存在嵌套关系,即对于任意区域i ,总存在区域j ,使i 是j 的一部分。
构建层次贝叶斯模型:
1112112ln it i j t it jt i j i j
A A
B θαδδ∈∈=+++++ (11)
22222ln jt j t jt A B θαδ=+++ (12)
其中,1α和2α为截距项,1i A 和2j A 分别是水平1和水平2的空间效应。
111i i i A u v =+,222j j j A u v =+。
1i u 和2j u 分别是水平1和水平2的空间相关性,1i v 和2j v 分别是水平1和水平2的空间的空间异质性。
2j i j
A ∈是水平2作用在水平1
上的空间背景效应。
222j j j i j i j i j A u v ∈∈∈=+,2j i j u ∈和2j i j
v ∈分别是水平2作用在水平1上的空
间相关性和空间异质性。
1t B 和2t B 分别是水平1和水平2的时间效应。
1it δ和2jt δ分别是水平1和水平2上的时空交互效应。
222jt jt jt i j i j i j u u δ∈∈∈=+,2jt i j u ∈和2jt i j
u ∈分别是水
平2作用于水平1的随时间变化的空间相关性和异质性。
各变量的的先验分布如下:
空间相关性和时空交互项的先验分布:。