当前位置:
文档之家› 半参数回归模型及模拟实例分析_陈长生
半参数回归模型及模拟实例分析_陈长生
16 12.5233 4.4313 1.40592 70.742 36 13.7830 6.7970 0.10761 46.426
17 16.2130 9.0616 -7.86257 47.241 37 11.7396 6.5214 2.97025 44.074
19 12.7037 6.6083 4.72638 58.156 38 9.2977 5.9949 -4.85962 32.179
x2
ε
y
1 13.7573 9.0395 3.75143 117.821 21 13.2374 8.2352 -2.20841 38.275
2 15.0520 7.3279 1.14067 122.813 22 14.1714 6.0503 1.91203 55.233
3 8.6033 7.3862 0.23542 94.179 23 12.1480 5.0736 -5.52984 44.491
7 16.2680 6.4557 9.27355 114.115 27 14.0647 6.6078 2.63609 47.195
8 10.1680 5.2876 -3.75255 81.923 28 10.9326 6.8775 0.81989 32.828
9 13.2466 5.3008 0.40266 92.177 29 12.3795 6.8564 3.39402 40.131
模型#43;1 个解释变量 , 其 中 p 维向量 xi 和数量变量 t , 如果反应变量 y 线性相
关于解释变量 x , 则有以下模型
y i = x′iβ +g(t i)+εi
(1)
其中 β 为未知的 p 维回归系数向量 , g(t)为未知的光
滑函数(如光滑样条), x 为线性变量 , t 为样条变量 , ε
若用矩阵符号来表示 S w(β , g), 则
S w(β , g)=(Y -Xβ -Ng)′W (Y -X β -Ng)+
αg′K g
(3)
当 β 和 g 为以下分块矩阵方程的解时 , 上式取最
小值 。
X′WX X′WN N′WX N′WN +αK
β g
=
X′ N′WY
(4)
方程(4)是一个(p +q)元方程组 , 直接解方程组
4 8.6597 8.5354 -7.34831 75.51 24 11.0290 10.0753 3.65699 22.564
5 15.2607 4.0964 3.86252 127.148 25 10.8887 8.3597 3.08169 29.333
6 12.7431 7.4814 -3.43690 88.786 26 15.0140 5.5422 3.69035 57.719
需要计算广义交互有效 GCV(generalized cross -val i- 程序可得到一个样本模拟数据(表 1)。
dation)得分函数 。GCV 得分函数为
n
GC
V
∑ (α)=i(=11
w i (y i -n -1
-yi )2 t rA)2
(11)
表 1 模拟抽样数据列 表
t
x1
x2
ε
y
t
x1
将(7)代入(5), 化简得
*国家自然科学基金资助项目(项目编号 39900126)
Chinese Journal of Health St at istics , December 2001 , V ol .18 , N o .6
· 339 ·
X′W(I -S )X β =X′W(I -S )Y
模拟实例分析
为说明半参数模型的拟合效果 , 本文用 SAS 程序 进行模拟抽 样实验 , 取 p =2 , n =60 , t 由 1 变 化到 60 , x 1 ~ N (12.66 , 2.572), x 2 ~ N (6.7 , 1.872), 误差 项 ε相 互 独立 且 服从 分 布 N (0.52), y =3.4 x1 5.2 x 2 +0.1(t -30)2 +30.2 +ε, 则用 SAS 模拟抽样
【关键词】 半参数回归 部分样条 曲线拟合 最小惩罚二乘
在医学科研数据统计分析过程中常常会遇到参数 回归模型的某些假定不能够完全满足的情形 , 如 :反应 变量与解释变量间的具体依存关系不明确 、反应变量 的分布不易判定等 。此时 , 参数回归模型难以进行拟 合处理 , 而非参数回归模型则能进行有效的分析 。 简 单的非参数回归模型研究的是反应变量 Y 与单一解 释变量 t 的依存关系 , 它能够解决医学与卫生研究工 作中的许多重要问题 , 但是 , 在实际工作中 , 有许多事 物或现象受多个变量的影响 , 因此 , 需要研究多个变量 间的相互关系 。 经典统计模型在研究受多个解释变量 影响的依存关系时常常采用多重回归 , 而多重回归的 更一般模型即为线性模型 :y i =x′i β +εi , 为了放宽该 线性模型中的某一个解释变量的线性假定 , 使模型在 假定方面具有较强的适应性 , 本文对半参数回归模型 进行了研究 。
42 13.6616 8.4751 -0.61364 46.365
43 14.8575 10.0036 -0.35908 45.238
44 11.3236 5.1932 -4.19473 57.101
45 13.0163 4.9998 -9.97231 60.984
46 11.2934 3.7157 0.90965 75.786
· 338 ·
中国卫生统计 2001 年 12 月第 18 卷第 6 期
半参数回归模型及模拟实例分析 *
第四军医大学卫生统计学教研室(710032) 陈长生 徐勇勇 夏结来
【提 要】 目的 放宽经典线性模型中的解释变量的线 性假定和 探讨半 参数回 归分析 模型 。 方法 利用 最小惩 罚 二乘原 理构造加权惩罚平方和 , 通过广义交互有效得 分函数 自动选 择光滑 参数值 , 用直 接法求 解方程 组 。 结果 用 SAS 程序实现了半参数回归分析 , 得到了回归 系数向量和样条函数的最小惩罚二乘估计 , 模拟实 例表明 , 半参数回 归模型较 传 统的线性模型有较强的适应性 。 结论 半参数回归模型是经典线性模型和非参数回归模型 的一个混 合体 , 可 作为回归 分 析的一种新技术得到广泛应用 。
13 11.1053 3.6854 -6.52679 71.167 33 7.2211 7.3388 4.36714 21.857
14 7.7996 6.2767 -1.49224 48.193 34 12.2964 7.3790 -0.13148 35.106
15 16.1694 6.3666 0.46688 75.036 35 7.5594 5.2159 6.15973 37.439
(8) 其中 trA =t rS +t r[ {X′W (I -S )X }-1 X′W (I -
这是广义最小二乘正规方程组 , 用来估计 β , 加权矩阵 S )2X ] 。
为非对角阵 W (I -S ), 解得 β 后 , 就可通过(7)求得 g 和 Ng , 因此 , 可得到光滑曲线 g(t )。
不方便 , 也很不实际 , 实际工作中 , 一般将方程(4)化为
以下形式
X′WXβ =X′W (Y -Ng)
(5)
(N′WN +αK )g =N′W (Y -X β)
(6)
求解时可采用不需迭代的直接法(di rect method)进行
求解 。
由(6)可得 :
Ng =S(Y -Xβ)
(7)
其中 S =N (N′WN +αK )-1 N′W , (Ng)i =g(t i )。
对于回归 系数向量 β 的估计值 , 可 进行假 设检
验 , β =(β1 , β2 , … , βp)′。 检验假设为 H0 :βi =0 , i =1 , 2 , …, p 备择假设为 H1 :βi ≠0 , α=0.05
检验统计量为
t=
βi C iiσ2
(9)
其中 Cii 表示(X′W(I -S )X )-1的对角线上第 i 个元
与(x , t )相互独立 , 且 E(ε)=0 , V(ε)=σ2(未知), 显
然 , xi 不含常数 1 , 常数项可以包含在 g(t )中 , 则以上
模型被称为半参数回归模型(semiparamet ric reg ression
model)。
半参数回归模型可通过惩罚最小二乘方法进行求
解 , β 和 g(t )的估计使得以下加权惩罚平方和最小
n
素 , σ2
=i∑=t1r({yIi
-yi)2 -A} , A
为帽子阵 。
A =S +(I -S)X {X′W (I -S)X }-1 X′W (I -
S)
(10)
当 H0 成立时 , t ~ tυ, υ=tr{I -A}。 在半参数回归模型中 , 对于光滑参数的自动选择
另外 , 半参数模型的误差自由度 EDF =tr{I -A}
=n
-tr A
,
均方差
MSE
n
=
i∑=1(yi t r{I
-y i)2 -A} ,
残差平方和
SSE
n
=∑(y i =1
i
-yi )2 ,
令
y
=
1 n
n
i
∑
=1
y
i
, 则拟合优度
R2
=1
- n SSE 。
i
∑(y
=1
i
-y)2
本文利用 6.11 版 SAS 软件的 IM L 模块进行编