当前位置:文档之家› _马尔可夫链蒙特卡洛_MCMC_方法在估计IRT模型参数中的应用

_马尔可夫链蒙特卡洛_MCMC_方法在估计IRT模型参数中的应用

IRT自20世纪60年代出现以来,由于其理论模型的科学性和精确性见长,一开始就受到心理和教育测量学的研究者和实际工作者的关注和兴趣。

至今已成为考试技术学研究领域中最有影响的一种现代测量理论。

但理论的严谨性又导致了计算的复杂性,因而也影响了IRT的普及和应用乃至它的考试研究2006年10月第2卷第4期ExaminationsResearchOct.2006Vol.2,No.4“马尔可夫链蒙特卡洛”(M CM C)方法在估计IRT模型参数中的应用[1][2]王权编译【摘要】本文介绍和阐述怎样运用“马尔可夫链蒙特卡洛”(MCMC)技术,并结合Bayes方法来估计IRT的模型参数。

首先简要地概述了MCMC方法估计模型参数的基本原理;其次介绍MCMC方法估计模型参数的一般方法,涉及Gibbs抽样、取舍抽样、Metropolis-Hastings算法等概念和方法;最后以IRT的“二参数逻辑斯蒂”(2PL)模型为例,重点介绍了用“Gibbs范围内的M-H算法”估计项目参数(β1jβ2j)的算法过程。

结束本文时还解说了MCMC方法的特点。

阅读本文需具有随机过程、Markov链、Bayes方法等概率论的基本知识。

【关键词】项目反应理论马尔可夫链蒙特卡洛Gibbs抽样取舍抽样作者简介王权,教授,浙江大学教育系。

浙江杭州,310028。

45《考试研究》第2卷第4期发展速度。

令我们欣喜的是在20世纪90年代,国外统计学家又推陈出新地提出了参数估计的新方法,使IRT的应用和发展又迈出了新的一步。

模型参数的估计是IRT的核心内容。

以往的参数估计方法主要有“条件极大似然估计”(CMLE)、“联合极大似然估计”(JMLE)、“边际极大似然估计”(MMLE)和“条件期望—极大化算法”(E-MAlgorithm)等,大致上后一种算法均是前一种算法的改进[3]。

E-M算法是由R.D.Bock和M.Aitkin于1981年创立,它是以MMLE方法为基础发展而成。

在E-M算法中,E步要涉及精确的数字积分计算,或者在M步要涉及偏导计算,当模型较复杂时,计算就十分困难。

加之,它还难以将项目参数估计中的“不可靠性”(uncertainty)结合进能力参数估计时不可靠性的计算;反之亦然。

“马尔可夫链蒙特卡洛”(MarkovChainMonteCarlo,MCMC)方法是一种动态的计算机模拟技术,它是根据任一多元理论分布,特别是根据以贝叶斯(Bayes)推断为中心的多元后验分布来模拟随机样本的一种方法。

它在估计IRT模型参数的应用中,一方面继承了以往估计能力参数和项目参数时所采用的“分而治之”(divide-and-conquer)的策略,采用能力参数与项目参数交替迭代计算的方法生成Markov链;然后采取迥然不同于极大似然方法的思路,充分发挥计算机模拟技术的优势,采集充分大的状态样本,用初等的方法来估计模型参数,绕开了E-M算法中的复杂计算,从而提高了估计的成功率。

—“Gibbs采样1992年统计学家J.H.Albert首先将一种特殊的MCMC方法——法”应用于IRT问题的研究。

现在它已被推广应用于多种复杂的IRT模型,在应用于大范围的教育测验评价中尤显它的长处。

本文主要介绍MCMC方法的基本原理和基本方法,为说明方便,只列举应用于较为简单状况的二参数逻辑斯蒂模型,它是进一步推广应用的基础。

一、MCMC方法的基本原理用MCMC方法估计IRT的模型参数的基本思路是:首先定义一Markov链,M0,M1,M2,…,Mk,…状态Mk=(θk,βk),k=1,2,…其中θ为能力参数,β为项目参数,θ和β可以为多维;然后根据Markov链模拟观测(即模拟状态);最后用所得的模拟观测推断参数θ和β。

在一定的规则条件下,随着k的增长,状态Mk的46“马尔可夫链蒙特卡洛”(MCMC)方法在估计IRT模型参数中的应用分布收敛到如以下(1)式定义的链的平稳分布π(θ,β)。

如果是用Bayes方法推断参数,则需要用平稳的后验分布p(θ,β|X)来定义Markov链。

Markov链的行径是由它的转移核(transitionkernel)t[(θ0,β0),(θ1,β1)]=P[Mk+1=(θ1,β1)|Mk=(θ0,β0)]决定的,即由链的现在状态(θ0,β0)转移到新的状态(θ1,β1)的概率所决定。

平稳分布π(θ,β)满足:∫θ,βt[(θ0,β0),(θ1,β1)]π(θ0,β0)d(θ0,β0)=π(θ1,β1)(1)如果我们定义的转移核t[(θ0,β0),(θ1,β1)]导致π(θ,β)=p(θ,β|X),那么删去为首的k次观测后,留下的“好”观测(θ(1),β(1))=Mk+1,(θ(2),β(2))=Mk+2,…(θ(L),β(L))=Mk+L就可以被用来推断有关的参数,因为它们的分布就像从P(θ,β|X)抽取的观测的分布。

二、MCMC的一般方法(一)吉布斯抽样(GibbsSampting)[4][5]利用等式(1)经过简短的计算表明转移核tG[(θ0,β0),(θ1,β1)]=P(θ1|β0,X)P(β1|θ1,X)(2)这是首先由S.Geman和D.Geman引入,π(θ,β)=P(θ,β|X)作为它的平稳分布。

用这种方法构造转移核的Markov链叫作吉布斯采样法(GibbsSampters);因子P(θ|β,X)和P(β|θ,X)叫作模型的完全条件分布。

根据吉布斯采样法模拟观测(θk,βk),即是反复地从完全条件分布抽样;由(θk-1,βk-1)到(θk,βk)采取以下两个转移步骤:1.抽取θk~P(θ|X,βk-1);2.抽取βk~P(β|X,θk)。

吉布斯采样仿效标准的IRT在参数估计中施行“分而治之”的策略,即在推断一组参数时,假定其他参数均被固定,而且已知。

吉布斯采样通过对各K=1,2,3,…迭代这种“分而治之”的步骤,为其他参数的“不可靠性”(uncer-tainty)而调整一组参数的推断,直至要求的模拟大小。

实际进行时,我们可对各K的采样器(sampler)划分成多于两个转移步骤,在多个转移步骤中一次只能从β或θ的1个或两个分量中抽样,并以所有其他分量的现在值为条件。

由条件概率的定义可推出:47《考试研究》第2卷第4期p(θ|X,β)=p(X|!,")p(!,")∫p(X|!,")p(!,")d!,p(β|X,θ)=p(X|!,")p(!,")∫p(X|!,")p(!,")d"(3)所以p(θ|X,β)和p(β|X,θ)都与联合分布p(X,θ,β)=p(X|!,")p(!,")成比例。

这种完全条件分布称作吉布斯采样器,它需要计算正规化常数∫p(X|θ,β)p(θ,β)dθ和∫p(X|θ,β)p(θ,β)dβ。

一些其他的MCMC方法都是为了简化或围绕这些计算而设计的。

(二)数据扩张和吉布斯抽样M.A.Tanner和W.H.wong(1987)将简化复杂混合模型计算的一般方法加以公式化,即把难以运作的模型表示成一个缺失数据的分析性的简单模型的平均,这种方法称作“数据扩张”(Dataaugmentation)。

数据扩张的简化方式常被应用于简化吉布斯采样中的正规化常数的计算。

假定我们希望建立一个吉布斯采样器,但不能方便地计算完全条件分布p(θ|β,X)和p(β|θ,X)的正规化常数。

然而却有可能将似然函数表示成缺失数据W时的一个平均(数学期望):p(X|θ,β)=∫p(X,W|θ,β)dW=∫p(X|θ,β,W)P(W|θ,β)dW(4)其中W假设为不可观测的潜在数据或缺失数据,将X视为可观测的不完全数据,(X,W)才被认为是完全数据。

于是类似于等式(2)就可以建立如下的一个3因子转移核的吉布斯采样器:t[(θ0,β0,W0)(θ1,β1,W1)]=p(θ1|β0,X,W0)P(β1|θ1,X,W0)P(W1|θ1,β1,X)在等式(4)中似然函数的数据扩张表示式的巧妙结构使上式中的3个完全条件分布:p(θ|X,β,W)=p(X|!,",W)p(!,")p(W|!,")∫p(X|!,",W)p(!,")p(W|!,")d!、p(β|X,θ,W)=p(X|!,",W)p(!,")p(W|!,")∫p(X|!,",W)p(!,")p(W|!,")d"、p(W|X,θ,β)=p(X|!,",W)p(!,")p(W|!,")∫p(X|!,",W)p(!,")p(W|!,")dW所需要的正规化常数,实质上比等式(2)的常数容易计算。

当在β和θ上进48“马尔可夫链蒙特卡洛”(MCMC)方法在估计IRT模型参数中的应用行推断时,W的MCMC输出被简单地忽略了。

J.H.Albert(1992)等人应用吉布斯采样法于正态卵形模型,其中W代表呈正态分布的连续型向量,作为构成离散反应的观测基础。

(三)Gibbs范围内的取舍抽样[4][5]等式(2)中的正规化常数的计算,可以利用“取舍抽样”(acceptance/Rejec-tionsampling)法,即通过抽签的办法来完全加以避免。

例如要从分布p(θ|X,β)随机抽取观测值,首先从一“建议性分布”(Proposaldistribution)q(θ)抽取θ*,q(・)是指我们已经知道怎样从中抽签的任一方便分布。

然后抛掷一枚头像概率α=c・p(θ*|X,β)/q(θ*)的硬币(即从p=α的贝努里分布中抽签),其中C是在约束条件o!α!1(对所有θ*而言)下可以自由选择的1个尽可能大的固定常数———等式(2)中的正规化常数就属于C。

如果硬币出现头像,就接受θ=θ*;否则,再抽取另一θ*,连续进行,直到最后出现头像止。

类似的方法也可使用于p(β|X,θ)。

所以“Gibbs范围内的取舍抽样”(acceptance/RejectionsamplingwithinGibbs)法就是指用取舍抽样法来替代吉布斯采样器的一种抽样法。

这种方法的计算速度很慢,特别是θ和β为高维度时,或者建议性分布q与目标分布没有足够好的匹配,在这种情况下,采样时的各个步骤要接受一个候选值θ*前,往往需要多次抽签。

(四)M-H算法[4][5]用取舍抽样法也可以直接构造Markov链,这里仍然假定平稳分布π(θ,β)=p(θ,β|X)。

由Metropolis和Hastings提出的这种取舍抽样法通常称作“M-H算法”(M-HAlgorithm),它先是根据一更方便的建议性转移核q[(θ0,β0),(θ1,β1)]产生Markov链的一候选(candidate)步骤(θ*,β*),随后取(θk,βk)=(θ*,β*),其接受概率为:α[(θ0,β0),(θ*,β*)]=min!(!*,"*)q(!*,"*),(!0,"0)!(!0,"0)q(!0,"0),(!*,"*),"#1(5)否则就设(θk,βk)=(θk-1,βk-1)。

相关主题