第25章 多水平统计模型
Subject specific effects of X on Pr(Death), OR = 20 per 1 unit increase in X Population average effect of X on Pr(Death), OR = 2.7 per 1 unit increase in X
如发生牙病的危险与个体的遗传倾向、饮食文化、环境
因素(氟)等有关
经典模型 单一水平 多水平
层次结构数据
随机误差项单一 随机误差项>=2 包含高水平单位对应变量的效应 独立 非独立
采用经典模型可能失去参数估计的有效性
经典方法框架下的分析策略
分解(disaggregation)
聚合(aggregation)
假定已知方差
2 u0的值,则可直接构造
残差的协方差矩阵 V 采用广义最小二乘法 (Generalized Least
Squares GLS)可获得固定系数的估计:
β = (X V X) X V Y
T
-1
-1
T
-1
假定方差
2 u0未知
在初始阶段,假定
2 u0 =
0 ,则给出固定系数
ˆ ,得到粗残差: 通常的 OLS 估计 (0)
2016/4/14 高级卫生统计学 45
三、应用实例
引入解释变量:
Y. j 0 1 X1. j 2 X 2. j u. j e. j z1 j
X1. j
重复测量值:
医院1
1水平
医院2
个体1
个体2
个体1
个体2
个体3
重复测量 1
重复测量 2
重复测量 1
重复测量 2
重复测量 1
重复测量 2
重复测量 1
重复测量 2
重复测量 2
重复测量 1
重复测量 2
3
水平 (level) :
数据层次结构中的某一层次 单位 (unit) : 数据层次结构中某水平上的一个实体
应变量向量的协方差结构
两水平数据结构
只包括随机参数 和
2 u0
2 e0
Varyij | 0 , 1 , xij Var(u0 j e0ij )
2 u0
2 e0
同一医院所诊疗的三名患者的协差阵:
2 u0 u2 0
2 u0
计值与总均数的离差值,反映了第 j 个医院对 y 的 随机效应
1 表示协变量 x 的固定效应估计值
y 与协变量 x 的关系在各医院间是相同的
医院间 y 的变异与协变量 x 的变化无关
方差成份模型拟合 j 条平行的回归线,截 距不同( 0 j ),斜率相同( 1 ) 随机截距模型
对医院水平残差的假定
2 u
Var e. j e2 n j
Y. j
2016/4/14
为第j个研究的Ln(OR)值
高级卫生统计学
43
三、应用实例
总方差:
Var Y. j
2 u
2 e
nj
定义:
z0 1, z1 j 1
nj
变换为:
Y. j 0 u. j e. j z1 j
两水平方差成份模型:
yij 0 1x1ij u0 j e0ij
1 x11 1 x 21 . . X . . . . 1 xn m m
y11 y 21 . Y . . yn m m
2 u0
组内相关(intra-class correlation, ICC)
2 u0
2 u0 2 e0
反映了医院内个体间相关,即水平 1 单位(患者) 在水平 2 单位(医院)中的聚集性或相似性
0
不具层次结构,可忽略医院的存在 简化为传统的单水平模型
0
不能忽略医院的存在 采用多水平模型
分解:
不满足模型独立性假定,回归系数及其标准误
的估计无效
未能有效分析水平高的效应
聚合:
Hale Waihona Puke 损失大量水平1单位的信息可能导致“生态学谬误”(ecological fallacy)
根据聚合单位的分析结果作关于个体的断言, 研究结果与真实情况不符
一个虚拟的例子(Extreme Example )
~ ˆ ˆx ) yij yij ( 0 1 ij
对应于 2 个医院,一个诊疗 3 名患者,另
~~T 和 一个诊疗 2 名患者,则 VecY Y Vec (V ) 均具
~ ~ T 的期望为 有 9+4=13 个元素。因为 YY V
~~T Vec YY Vec(V ) R
区别: 经典模型: 方差成份模型:
0
0 j
第j 个截距值:x = 0 时,第 j 个医院 y 的平均 估计值
0 j 0 u0 j
0 为平均截距,反映 yij 与 x 的平均关系, ij
x = 0 时,所有 y 的总平均估计值
u0 j 为随机变量,表示第 j 个医院 y 之平均估
第25章
第二十五章 多水平统计模型
Multilevel Statistical Models
2016/4/14
高级卫生统计学
1
内容
第一节 方差成份模型 第二节 随机系数模型 第三节 离散数据的多水平模型
2016/4/14
高级卫生统计学
2
多中心临床试验的多水平结构
中心(医院):
个体:
3水平
2水平
回到初始模型则获得固定系数新的估计
在随机与固定参数估计间反复迭代直至收敛
分析软件
ML3 (1994) / MLN (1996) / MLwiN (1999)
HLM (Hierarchical Linear Model)
SAS (Mixed)
三、应用实例
例25-1 检索有关吸烟与肺癌关系研究的文献共49篇,各项研
Varyij | 0 , 1 , xij Var(u0 j e0ij )
Var(u0 j ) Var(e0ij ) Cov(u0 j , e0ij )
2 u0
2 e0
即水平 2 和水平 1 方差之和
同一医院中两个患者(用i1,i2 表示)间的协方差:
Cov u0 j e0i1 j , u0 j e0i2 j Covu0 j , u0 j
2016/4/14
高级卫生统计学
44
三、应用实例
表 25-2 模型的拟合结果 估计值 固定参数 随机参数(水平 2) (水平 1) 1.44 0.63 1.00 标准误 0.11 0.12 0.00 160.00 24.38 -P <0.01 <0.01 --
全部Ln(OR)的平均估计值:1.44
2 e0
2 u0
2 u0 2 e0
2 u0
2 u0 2 2 u0 e0
2 u0
医院1:3名患者 , 医院2:2名患者
应变量向量 Y 总的协方差阵:
u20 e20 u20 u20 2 2 2 2 u0 e0 u0 u0 2 2 2 2 u0 u0 e0 u0 u20 e20 u20 2 2 2 u0 u0 e0
nj
性别调整 1 0 … 1
X1. j
设计类型 X 2. j 1 0 … 1
(0=未调整、1=调整) (0=病例对照、1=队列研究)
598 10704 … 226
2016/4/14
高级卫生统计学
42
三、应用实例
水平 2:文献研究结果(效应尺度) 水平1:个体数据不可得
Y. j 0 u. j e. j Var u. j
2016/4/14
高级卫生统计学
17
yij 0 j 1 xij e0ij
j 1,2,...,m
水平 2 单位
i 1,2,...,n j 水平 1 单位
yij
和
xij 分别为第 j 个医院中第 i 个患者应变
量观测值和解释变量观测值
0 j 和 1 为参数
e0ij
为随机误差项
固定与随机参数估计
迭 代 广 义 最 小 二 乘 算 法 (Iterative Generalized
Least Squares,IGLS) (Goldstein,1986)
限制性迭代广义最小二乘法(Restricted Iterative
Generalized Least Squares,RIGLS) (Goldstein, 1989)
可将这些向量间关系表达为以下线性模型:
~ y 2 11 ~ ~ y 21 y11 ~ y 31 ~ y11 ~ ~ y11 y 21 2 ~ y 21 = . . . ~ ~ y12 y 22 ~2 y 22
层次结构数据
非独立数据:
如同一只雌性大鼠的重复观测值 同一家庭的子女,其生理和心理特征更为相
似,相似性或聚集性(clustering)
相 关 程 度 常 用 组 内 相 关 (intra-class
correlation, ICC)度量
两水平层次结构示意图
水平2