多层数据
27
library(Ecdat);data(Airline);library(nlme);dim(Airline)
> Airline[1:10,] airline year cost output pf lf 1 1 1 1140640 0.952757 106650 0.534487 2 1 2 1215690 0.986757 110307 0.532328 3 1 3 1309570 1.091980 110574 0.547736 4 1 4 1511530 1.175780 121974 0.540846 5 1 5 1676730 1.160170 196606 0.591167 6 1 6 1823740 1.173760 265609 0.575417 7 1 7 2022890 1.290510 263451 0.594495 8 1 8 2314760 1.390670 316411 0.597409
面板数据例: 向量
为固定效应 , 随机效应 两个误差是独立的. 特例: 无约束模型例: 约束模型例: 约束模型例:
多层模型(Hierachical Model)也称为纵向数据 (longitudinal data)模型,面板数据(panel data) 模型,多水平统计模型(multilevel statistical model),混合模型(mixed model)等等。这些名 字反映了该模型的应用、数据形式、模型的构造等 不同方面。多层模型中的不可观测的变量,也称为 隐变量(latent variable);隐变量是相对于可观测 的显变量(manifest variable)而言的;因此,多层 模型亦称为隐变量模型(latent variable model)。 这些名字的命名者可能并不认为这些名字是完全的 同义词;这些模型研究者有不同的兴趣和着重点, 他们解决问题的工具和方法也不尽相同,而应用这 些模型所研究的对象和特点的差异也很大。
#可直接得到数据
reading <- read.table("/stat/R/examples/alda/data/reading_pp.txt", header=T, sep=",") #或者用已经下载的本地数据
先举一个较简单的两水平线性混合模型的例 子(Burchinal et al., 1997)。假定在一个试验中, 对一些儿童在两种条件(Ii=1或0)下认知能 力进行考察。令Yij代表第i个儿童在其发展的 第j个时间Tij时测量的认知能力。考虑下面的 (第一层)回归模型
Yij 0i 1iTij ij
多层数据/纵向数据/面板数据分析
吴喜之
多元面板或聚类数据(multivariate panel or cluster data) 为 , 为 , 为 , 为 , 为 , 为
. 。. 通常,X 和 Z 的第一列是常数, 包含的是 的是 。数据通常为
独立于
的子集。要估计
模型 , 为
也可以写成 . 单因变量时 .
数据: /stat/examples/alda
/stat/examples/alda
Reading数据: three waves of data for 89 African-American children. Each was 6 years old in 1986. Time of three waves: 1986,1988,1990 变量 id wave (1,2,3) agegrp 年龄群(6.5,8.5,10.5) age 确切年龄 piat: Peabody Individual Achievement Test score
多层模型不是一个新的东西,我们所 熟知的通常的最小二乘回归模型 (ordinary least squares regression model)以及更广泛的广义线性模型 (generalized linear model)、重复测 量(repeated measures)、空间数据 (spatial data)等都是多层模型的特 例或研究对象。
这就是线性模型, 只是在截距和斜率中有随机变量而已. 这就 是随机效应混合模型的名称来源 . 而对于每个 , 有 个观测值, 这就类似于重复观测或时间序列, 这就是纵向 数据分析的名称来源, 这里的 代表了第 名个体. 这种模型很 容易分解成若干个子模型(多层模型)的嵌套, 这就是多层数据 分析名称的来源 . 而面板数据也仅仅是这种一般模型在计量 经济学中的一些个例而已 . 当然还有非线性随机效应混合模 型. 从多层模型的角度, Bayes 模型也应属于此范畴, 这是题外 话.
28
假定模型z
等价于
z=lme(output ~ year+cost+pf+lf, data=Airline, random= ~ year+cost+pf+lf |airline, method="ML") summary(z)
29
随机效应的输出
30
固定效应的输出
31
假定模型b
等价于
b=lme(output ~ cost+year:cost, data=Airline, random= ~ year+cost+pf+lf |airline, method="ML") 32 summary(b)
names(z) fm4 <- lme(distance ~ age + Sex,data=z,random=~1|ID/Subject) #Subject嵌套在ID中 summary(fm4)
ntaining : airline : airline year : year cost : total cost, in $1,000 output: output, in revenue passenger miles, index number pf : fuel price lf : load factor, the average capacity utilization of the fleet
随机效应的输出
18
固定效应的输出
19
fm2 <- lme(distance ~ age + Sex, data = Orthodont, random = ~ 1) summary(fm2)
fm22 <- lme(distance ~ age + Sex, data = Orthodont, random = ~ 1|Subject) summary(fm22)
随机效应的输出
21
固定效应的输出
22
fm3 <- lme(distance ~ age + Sex, data = Orthodont, random = ~ age+Sex|Subject) summary(fm3)
随机效应的输出
24
固定效应的输出
嵌套模型
加人造变量ID的人造模型 z=data.frame(Orthodont,ID= rep(1:36,rep(3,36)))
library(nlme) data(Orthodont)#?Orthodont head(Orthodont)
library(nlme) data(Orthodont)#?Orthodont head(Orthodont) fm1 <- lme(distance ~ age, data = Orthodont) # random is ~ age summary(fm1) fm12 <- lme(distance ~ age, data = Orthodont, random=~age|Subject) summary(fm12)#和fm1等价
但有一点是肯定的,即多层模型在各个 领域中有着非常广泛的应用。多层模型 的思想并不复杂,但对它的研究由于无 法实施计算而没有深入进行。它之所以 在最近一二十年才倍受关注,主要是因 为计算机和统计计算方法的发展,使得 这些模型能够被实际用于统计推断;而 与之相辅相成的是,由于能够进行计算, 实际领域中对复杂的多层模型的应用也 不断增加,反过来也推动了多层模型及 其计算的发展。
随机效应的输出
33
固定效应的输出
34
假定模型a
等价于
a=lme(output ~ cost+year:cost, data=Airline, random= ~ year+cost+lf |airline, method="ML") 35 summary(a)
随机效应的输出
36
固定效应的输出
0i 00 01 I i 0i 1i 10 11 I i 1i
其中,我们又有了更多的回归系数和误差项。把 这两个模型写到一起,就有下面的统一的模型
Yij
00 10Tij 01I i 11 I i Tij 0i 1iTij ij
37
比较z和a、b模型
38
假定模型e
等价于
e=lme(output ~ cost+pf+lf, data=Airline, random= ~ year+cost+lf |airline, method="ML") summary(e)
39
随机和固定效应的输出
40
比较模型a和e
41
PPT: /~faculty/singer/
其中,第一个方括号的内容表示了非随机部分, 而第二个方括号表示包含了不可观测的随机效应 的随机部分。这种回归在没有一些事先假定之下 不容易解。如果假定
我们则可以得到Yij的分布形式及似然函数