当前位置:文档之家› 第11章多重线性回归分析案例辨析及参考答案

第11章多重线性回归分析案例辨析及参考答案

第11章多重线性回归分析
案例辨析及参考答案
案例11-1预测人体吸入氧气的效率。

为了解和预测人体吸入氧气的效率,某人收集了31名中年男
性的健康调查资料。

一共调查了 7个指标,分别是吸氧效率(Y , %)、年龄(X1,岁)、体重(X2, kg )、
跑1.5 km所需时间(X3, min )、休息时的心跳频率(X4,次/min )、跑步时的心跳频率(X5,次/min)
和最高心跳频率(X6,次/min )(教材表11-9)。

试用多重线性回归方法建立预测人体吸氧效率的模型。

教材表11 -9 吸氧效率调查数据
Y X1 X2X3 X4 X5 X6 Y X1 X2X3 X4 X5 X6
44.609 44 89.47 11.37 62 178 182 40.836 51 69.63 10.95 57 168 172
45.313 40 75.07 10.07 62 185 185 46.672 51 77.91 10.00 48 162 168
54.297 44 85.84 8.65 45 156 168 46.774 48 91.63 10.25 48 162 164
59.571 42 68.15 8.17 40 166 172 50.388 49 73.37 10.08 67 168 168
49.874 38 89.02 9.22 55 178 180 39.407 57 73.37 12.63 58 174 176
44.811 47 77.45 11.63 58 176 176 46.080 54 79.38 11.17 62 156 165
45.681 40 75.98 11.95 70 176 180 45.441 56 76.32 9.63 48 164 166
49.091 43 81.19 10.85 64 162 170 54.625 50 70.87 8.92 48 146 155
39.442 44 81.42 13.08 63 174 176 45.118 51 67.25 11.08 48 172 172
60.055 38 81.87 8.63 48 170 186 39.203 54 91.63 12.88 44 168 172
50.541 44 73.03 10.13 45 168 168 45.790 51 73.71 10.47 59 186 188
37.388 45 87.66 14.03 56 186 192 50.545 57 59.08 9.93 49 148 155
44.754 45 66.45 11.12 51 176 176 48.673 49 76.32 9.40 56 186 188
47.273 47 79.15 10.60 47 162 164 47.920 48 61.24 11.50 52 170 176
51.855 54 83.12 10.33 50 166 170 47.467 52 82.78 10.50 53 170 172
49.156 49 81.42 8.95 44 180 185
资料来自:张家放主编•医用多元统计方法•武汉:华中科技大学出版社,2002。

该研究员采用后退法对自变量进行筛选,最后得到结果如教材表11-10所示。

教材表11-10 多重线性回归模型的参数估计
Table 11-10 Parameter estimati on of regressi on model
Variable
Un sta ndardized Coefficie nts Stan dardized
Coefficie nts t P
B Std. Error
In tercept 100.079 11.577 8.644 0.000 X1 -0.213 0.091 -0.214 -2.337 0.027 X3 -2.768 0.331 -0.721 -8.354 0.000 X5 -0.339 0.116 -0.653 -2.939 0.007 X6 0.255 0.132 0.439 1.936 0.064
* F 34.90, P 0.001 R2 0.843
对模型进行方差分析的结果认为模型有统计学意义(P<0.05),确定系数的数值(0.843)也说明模型
拟合的效果较好。

考察各个自变量的偏回归系数,研究者发现,X6的偏回归系数符号为正,认为最高心
跳频率越大,人的吸氧效率就越高,这与专业结论相反。

出现这种悖论的原因是什么呢?
案例辨析我们先分析一下各个自变量之间的简单相关系数,结果发现X5和X6存在有较强的相关
(r=0.930, P<0.001),对回归模型进行共线性诊断,结果发现自变量X5的容忍度为0.122,方差膨胀因子
等于8.188,自变量X6的容忍度为0.117,方差膨胀因子等于 8.522,说明自变量之间存在多重共线性,所以出现了与专业结论相反的现象。

正确做法在这里,我们可以把自变量X6从模型中删除以消除多重共线性的影响,应重新建立多重
线性回归方程。

最好多用几种筛选自变量的方法(如前进法、后退法、逐步回归分析、最优回归子集法等)筛选自变量,结合专业知识和统计学知识,综合分析和比较,从而得到比较优的多重回归方程。

案例11-2医院住院人数的预测石磊(1991)发表了其所在医院1970-1989年期间历年门诊人次X1、病床利用率X2、病床周转次数X3和住院人数Y的数据(教材表11-11),建立由X1、X2、X3预测Y的线性回归方程[中国卫生统计,1991,8(6)]。

下面列出了多重线性回归分析的主要结果(教材表11-12)。

教材表11-11 重庆医科大学附属第二医院1970-1989年若干统计资料
年份住院人数
Y
门诊人数/万人
X1
病床利用率/ %
X2
病床周转次数
X3
1970 6 349 49.8 94.25 19.84 1971 6 519 38.1 98.50 20.37
1972 5 952 36.6 89.86 18.80 1973 5 230 36.0 86.00 16.34
1974 5 411 32.3 83.29 16.91 1975 5 277 37.8 77.88 18.07
1976 3 772 34.1 92.62 17.96 1977 3 846 42.2 86.57 18.31
1978 3 866 38.1 84.29 18.41 1979 5 142 39.5 89.29 20.61
1980 7 724 55.8 97.63 21.72
1981 8 167 63.0 96.53 23.33 1982 8 107 65.2 93.43 21.91
1983 7 998 66.1 94.45 21.05 1984 7 331 65.4 93.03 19.96 1985 6 447 60.1 91.79 18.81 1986 4 869 56.9 88.94 15.82 1987 5 506 57.7 91.79 16.01
1988 5 741 53.4 99.03 16.59 1989 5 568 48.7 94.93 19.09
教材表11-12 多重线性回归模型的参数估计
Table 11-12 Parameter estimation of regression model
Variable -
Un sta ndardized Coefficie nts
Stan dardized P
Coefficie nts t
B Std. Error In tercept
-3219.628 1505.165
-2.139
0.047 X 1 59.834 15.780 0.512 3.792 0.001 X 3
327.553
85.725
0.515
3.821
0.001
* F 24.39, P 0.001
R 2
0.861
作者采用逐步回归的方法建立了门诊人数和病床周转次数关于住院人数的多重回归方程,得到表 11-12的结果,认为回归效果很好。

但是,读者小明作了残差分析图(教材图 11-4 ),认为回归效果不好。

请仲裁一下,到底谁对谁错?
1 5C0 - 1 000 - 50D -
0 -
-500 -
OCO -
-1 500
4 000
5000 6OT 7003
8000
r 的预测值
教材图11-4
残差分析图
案例辨析
作者采用逐步回归的方法建立了门诊人数和病床周转次数关于住院人数的多重回归方程。

从结果中可以看出,整个方程是有统计学意义的,各个总体偏回归系数不为零,确定系数等于
0.861,说
明回归的效果也很好。

但是,回头考虑资料是否适合进行多重线性回归分析,也就是资料是否满足多重回 归分析的前提条件 LINE ?于是,对回归分析的结果进行残差分析,
上面的残差图提示资料不满足方差齐性
的要求。

Durbin-Watson 统计量等于0.580,结果提示资料不满足独立性的要求。

其实,常识也认为同一 医院不同年份之间的数据不是独立的。

因此,可以认为本资料不满足多重线性回归分析的前提条件,不宜 进行多重线性回归分析。

正确做法 由于各年数据前后可能存在关联性,即其取值与时间有关,故可以考虑采用时间序列等分 析方法,此处从略。

相关主题