多层线性模型摘要在社会科学研究中,调查得来的数据往往具有层次结构(嵌套结构)的特点。
在层次结构数据中,不仅有描述个体的变量,而且有个体组成的更高一层的变量。
如研究学生的学术成绩,要考虑学生的社会经济地位(SES)即个体水平的变量,同时可能还要考虑不同学校间学生/老师比例的差异对学生学术成绩的影响也就是学校层次的预测变量。
这种数据带来了很多跨级(多层)的研究问题,为了解决这些问题,出现了一种新的数据分析方法——多层线性模型。
本文第一部分介绍多层线性模型以及多层模型的类型。
第二部分传统统计技术的局限性及多层线性模型的优势。
第三部分说明多层线性模型的基本原理以及两个应用(直接来自篇文献)。
第四部分是总结和拓展。
1、多层线性模型以及多层模型的类型多水平、多层次的数据结构普遍存在,如学生嵌套于班级,班级有嵌套与学校。
传统的线性模型,如方差分析和回归分析,只能涉及一层数据的问题进行分析,不能综合多层数据问题。
在实际研究中,更令人感兴趣的是学生一层的变量与班级一层的变量之间的交互作用,比如,学生之间的个体差异在不同班级之间可能是相同的、也可能是不同的。
学生数据层中,不同变量之间的关系可能因班级的不同而不同。
因此,学生层的差异可以解释为班级层的变量。
另一种类型的两层嵌套数据来自纵向研究数据,多层(多水平)数据指的是观测数据在单位上具有嵌套的关系。
比如在教育研究中,学生镶嵌于班级,在此,学生代表了数据结构的第一层,而班级代表了数据结构的第二层。
对于第一层的学生数据,研究者可以提出一系列的研究问题,也可以针对第二层的班级又提出一系列的研究问题。
在教育研究中,更为重要和令人感兴趣的正是关于学生层的变量与班级层变量之间的交互作用问题。
比如,学生之间的个体差异在不同班级之间可能是相同的,也可能是不同的;在学生层数据中,不同变量之间的关系也可能因班级的不同而不同,这些学生层的差异可以解释为班级层的变量的函数。
多层线性模型由Lindley等于1972年提出,是用于分析具有嵌套结构数据的一种统计分析技术。
作为传统方差分析模型的有效拓展。
20多年来,该方法在社会科学领域获得了广泛应用。
多层线性模型又称分层线性模型或多水平模型,当数据存在于不同层级时,先以第一层级的变量建立回归方程,然后把该方程中的截距和斜率作为因变量,使用第二层数据中的变量作为自变量,再建立两个新的方程。
通过这种处理,可以探索不同层面变量对因变量的影响。
由于它把第一层回归方程中的截距和斜率作为第二层回归方程中的随机变量,所以这种做法也被称作“回归的回归”。
接下来将简要地说明在多层次的研究中,已经被广泛使用过的多层次模型。
(1)跨层次直接效果模型是检测在较低层次(如个人层次)的结果变量上,较高层次(如单位层次)白变量的主效果,或同时分析较高层次与较低层次的主效果,Hall(1994)称之为混合因子模型。
例如,Siebert,Silver发现,团队层次的授权气氛(team-1evel empowerment climate)与员工层次的心理授权相关,且心理授权中介于团队层次的授权气氛与个人层次的工作满意度及工作绩效。
(2)跨层次调节模型是检测两个较低层次构念之间的关系如何校较高层次的构念调节,或是检测较高层次的构念与较低层次的结果变量之间的关系如何被另一个较低层次的构念调节。
例如,Hofmann,Morgeson和Gerras(2003)检验了团队层次的安全气氛对个人层次的领导者部属交换与员工的安全公民角色定义之间关系的调节效果,结果发现,当正面的安全气氛存在时,领导者部届交换与安全公民角色定义之间的相关性更高。
(3)跨层次青蛙池塘模型是说明较低层次的个人在较高次中的相对位置对较低层次的结果变量有何影响。
同样的一只青蛙,假若池塘很大,这只青蛙看起来可能会很小;若池塘很小,这只青蛙看起来就可能很大。
例如,假设我们要检测薪的高低与工作满意度之间的关系,个人的工作满意度可能就会取决于其相对于群体中同事平均薪资水准。
(4)一致的多层次模型是说明构念以及连接构念问的关系是可被概化到不同组织的实休上的。
在这种模型中,两个或两个以上变量之间的关系能同时存在于个人、群体及组织等多个层次中。
Wiechmann(2004)检验一个多重目标绩效模型在个人和团队层次上的一致性,结果发现79%的假设在个人与团队层次皆成立,支持他们所提出的关系可同时存在于不同层次的多层次模型。
2、传统统计技术的局限性及多层线性模型的优势牵扯到两层数据或者三层数据时就不能用传统的统计方法来解决了。
因为传统的统计技术在以下三个方面存在着局限性:第一个是方差齐性和随机误差独立性假设问题。
传统线性模型的基本假设是线性、正态、方差齐性及独立性,后两条假设在嵌套性的取样中往往不能成立。
因为同组的个体比不同组的个体之间更加接近和相似;而且不同组的抽样可能是独立的,但是同组内的抽样在很多变量上可能取值相似。
在关于发展趋势的纵向研究中,因变量随时间的推移而发生有规律的增减变化,方差也容易发生相应的增减,使方差齐性假设受到威胁。
在上述情况下,采用传统统计技术可能导致不合理的、甚至是错误的结论。
但是多层线性模型不要求研究对象个体内观测值相互独立,也不受限制性假设的制约。
第二个是缺失值和测量间隔不一致的问题。
比如在纵向研究中,需要对同一观测对象做多次追踪观测,那么很容易出现样本的流逝。
传统的统计手段是删除存在缺失值的观测对象或对缺失值进行拟合,前者会造成信息的浪费,后者会降低研究的精确程度而多层相性模型允许确实值得存在,在建立第一层回归模型时能够最大程度的利用现有样本的信息。
另外,传统的统计技术还要求所有被观测对象在相同的时间间隔接受观测,在操作上有很多限制。
多层相性模型不但允许不同时间间隔的测量,还允许不同观测对象采用不同的观测时间表,使研究者有了更大的便利和灵活性。
第三个是处理研究假设的问题。
传统统计手段的功能主要局限于比较各次观测结果间差异的显著性或前期观测结果对后期观测结果的预测成都,而多层线性模型允许研究者在不同数据层面上提出不同假设。
例如是否存在着显著的增长或下降趋势?不同类型个体的变化速率是否一致?哪些因素可以预测不同类型个体在变化速率上的差异?不同类型个体在变化速率上的差异是否得到了足够的解释等等,还可以建立多个发展模型,通过拟合度检验选出最吻合观测数据的理论假设。
基于以上嵌套数据的特点和传统统计技术的局限性,诞生了多层线性模型,它是目前国际上较前沿的一套社会科学数据分析的理论和方法。
3、多层线性模型的基本原理及应用举例3.1多层线性模型原理通过定义不同水平(层)的模型,将随机变异分解为两个部分,其一是第一水平个体间差异带来的误差,另一个是第二水平班级的差异带来的误差。
可以假设第一水平个体间的测量误差相互独立,第二水平班级带来的误差在不同班级之间相互独立。
多水平分析法同时考虑到不同水平的变异。
他的基本形式包括三个公式:(1)Y ij=β0j+β1j X ij+εij(2)β0j=γ00+γ01W1j+μoj(3)β1j=γ10+γ11 W1jμ1j下标“0”表示截距,下标“1”表示斜率。
β0j表示与第二层单位j有关的第一层的截矩。
γ00表示截矩,所有第二层单位的总体平均数。
γ01表示回归斜率。
W1j表示第二层第一个预测变量。
μoj表示残差或随机项。
β1j表示与第二层单位j有关的第一层的斜率。
γ10表示截矩,所有第二层单位在第一层的斜率的总体平均数。
γ11表示回归斜率。
μ1j表示残差或随机项。
有时研究者只是感兴趣于把方程分解为有个体差异造成的部分和有组间差异造成的部分。
这时,使用这种在第一层和第二层都没有预测变量的零模型就够了。
通过零模型,我们可以确定Y中的总体变异有多大比例是由于第二层或者是说组间差异造成的,就要计算一个跨级相关(ICC):组间方差/(组间方差+组内方差)。
当icc很小时,群体平均数就必须以多个群体成员的回答来估计。
另外,HLM亦可使用卡方检验来检测组间方差时候具有统计上的显著性。
研究中的有些问题不一定要用到多层线性模型,那么我们怎样来判断呢?这时我们可以先构建一个零模型,运用方差成分分析,当组间方差具有统计上的显著性时,即将个别聚合到群体是可行的,说明有必要使用多层线性模型。
那么这时说明需要在模型中加入新的变量来解释这种显著性的差异。
这时我们往第一层中加入新的预测变量,这就是随机效应模型,如果这时通过卡方检验发现第二层的残差μoj和μ1j比较显著,则表示在第二次层可能存在群体层次的因子。
那么我们继续往模型中加入新的变量。
这时我们往第二层加入预测变量,这就是完整模型。
完整模型解释了Y的总体变异是怎样受第一层和第二层的因素影响的。
3.2应用举例一层线性模型在横断面研究和纵向研究中都有应用,下面以纵向研究中的一个应用为例:为探索一种新药物对自闭症儿童的治疗作用,对120名自闭症儿童进行了研究,其中64名儿童未接受药物治疗,56名儿童接受了药物治疗。
以自闭症儿童适应功能测验0得分为观测指标对上述儿童进行了4次追踪,每次追踪间隔5个月,以反映自闭症儿童适应能力的改善情况。
研究者期望了解药物治疗的作用以及治疗开始前的症状严重程度对疗效的影响。
这里,每次追踪间隔五个月下的适应功能测验得分为第一层数据,以不依时间变化的个体特征或所接受的处理为第二层数据(治疗方法和治疗前症状严重程度)。
首先建立两个spss的数据文件,利用hlm5软件生成数据结构。
然后建立随机效应模型。
在这个模型的第二层方程中不包含任何自变量,因为此处我们的着眼点是仅仅确定第二层的变异。
所以该模型的作用是描述全体观测对象的变化趋势,并就是否需要进一步引入第二层解释变量作出决定。
第一层的方程是: 适应功能测验分数=β0+β1 (观测时间)+ε第二层的方程是:β0=γ00+μ0β1=γ10+μ1第一层方程中“β0”是方程的截距,其含义是最后一次适应功能测验的平均分。
“β1”是回归系数,其含义是适应功能得分的变化速率。
“观测时间”表示自变量,ε代表残差,表示测量值Y(适应功能得分)不能被自变量X(观测时间)所解释的部分。
在SPSS数据文件中,对于/测量时间0变量,分别用-3,-2, -1,0代表四次测量,这样做的目的是令方程(5)的截距B0正好等于最后一次适应功能测验的平均分。
经过HLM5软件进行参数估计,结果见表1:结果表示最近一次测量中所有儿童的适应功能平均分数是13.28。
每隔5个月,自闭症儿童的适应功能分数平均增长1.53分,T检验结果说明增长趋势显著。
方程(6)(7)中的残差变异都显著,说明无论是当前适应功能得分还是变化速率,都存在较大的个体间差异,需要引入第二层变量才能得到更好的解释。