一般线性回归分析案例
1、案例
为了研究钙、铁、铜等人体必需元素对婴幼儿身体健康的影响,随机抽取了30个观测数据,基于多员线性回归分析的理论方法,对儿童体内几种必需元素与血红蛋白浓度的关系进行分析研究。
这里,被解释变量为血红蛋白浓度(y),解释变量为钙(ca)、铁(fe)、铜(cu)。
表一血红蛋白与钙、铁、铜必需元素含量
(血红蛋白单位为g;钙、铁、铜元素单位为ug)
case y(g)ca fe cu
17.0076.90295.300.840
27.2573.99313.00 1.154
37.7566.50350.400.700
48.0055.99284.00 1.400
58.2565.49313.00 1.034
68.2550.40293.00 1.044
78.5053.76293.10 1.322
88.7560.99260.00 1.197
98.7550.00331.210.900
109.2552.34388.60 1.023
119.5052.30326.400.823
129.7549.15343.000.926
1310.0063.43384.480.869
1410.2570.16410.00 1.190
1510.5055.33446.00 1.192
1610.7572.46440.01 1.210
1711.0069.76420.06 1.361
1811.2560.34383.310.915
1911.5061.45449.01 1.380
2011.7555.10406.02 1.300
2112.0061.42395.68 1.142
2212.2587.35454.26 1.771
2312.5055.08450.06 1.012
2412.7545.02410.630.899
2513.0073.52470.12 1.652
2613.2563.43446.58 1.230
2713.5055.21451.02 1.018
2813.7554.16453.00 1.220
2914.0065.00471.12 1.218
3014.2565.00458.00 1.000 2、回归分析
表2 变量说明表
输入/移去的变量a
模型输入的
变量移去的
变量
方法
1cu, fe,
ca b
.输入
a. 因变量: y
b. 已输入所有请求的变量。
表2说明了应变量和自变量及自变量进入方程的情况
由表3可知,相关系数R为0.902,说明自变量与因变量有比较好的相关性。
R方为0.813,接近于1,说明总体回归效果较好。
++++
表4 回归方差分析表(1)
Anova a
模型平方和df均方F Sig.
1回归
111.58
7
337.19637.743.000b 残差25.62326.986
总计
137.21
29
a. 因变量: y
b. 预测变量: (常量), cu, fe, ca。
表4是用方差分析对整个回归方程做了显著性检验,其中F=37.743,对应的概率P值近似为0。
若显著性水平ᵅ为0.05,则因概率小于ᵅ,拒绝回归方程显著性检验的原假设,即回归系数不同时为0,解释变量全体与被解释变量存在显著的线性关系,选择线性模型具有合理性。
表5 回归系数及显著性检验表(1)
表5用方差分析对每个因变量做了偏回归分析,是关于回归系数及显著性检验的计算结果如下:
在表中,常数项的t的显著性概率0.364大于0.05,表示常数项与0没有显著性差异,它不应出现在方程中。
钙含量的t的显著性概率0.026小于0.05,表示钙含量的系数与0有显著性差异,钙含量应作为解释变量存在于方程中。
铁含量的t的显著性概率0.000小于0.05,表示钙含量的系数与0有显著性差异,钙含量应作为解释变量存在于方程中。
铜含量的t的显著性概率0.305大于0.05,表示铜含量的系数与0有显著性差异,铜含量应作为解释变量存在于方程中。
由此可见,钙含量和铁含量可以作为解释变量在方程中来解释血红蛋白含
量的变化,而铜含量则应该被剔除。
将铜含量从解释变量中剔除再次做回归分析,的到如下分析结果:
自变量减少了一个“铜”含量后,R方由0.813变为0.805,由此可见,去掉铜元素含量后,线性回归方程中的自变量对因变量的影响变化不大;
表7 回归方差分析表(2)
由表7看出,F值由原来的37.743上升为55.865,F值越大越好,表明整体回归效果更好。
表8 回归系数及显著性检验表(2)
B
标准
误差
试用版零阶偏部分容
1(常
量)
1.528 1.474 1.037.309
fe.030.003.91510.570.000.879.897.897 ca-.041.020-.184-2.124.043-.006-.378-.180
a. 因变量: y(g)
表7 多重共线性检验的特征值及条件指数
共线性诊断a
模型维数特征值条件索
引
方差比例(常量)fe ca
11 2.969 1.000.00.00.00
2.02112.016.01.72.47
3.01017.185.99.28.53
a. 因变量: y(g)
表6中,最大特征值为2.969,其余依次快速减小。
第三列各个条件指数均不大,可认为多重共线性较弱。
图1:
图1是残差正态性的图形结果,可以看到参数围绕基准线仍存在一定规律性。
图2 回归方程标准化预测值与标准化残差散点图
图2表明,不存在明显的异方差现象。
最终的回归方程为:
Z=-0.184X+0.915Y
其中,Z表示儿童梅100毫升血中的血红蛋白的含量,单位为g;
X表示儿童每100毫升血中钙元素的含量,单位为ug;
Y表示儿童每100毫升血中铁元素的含量,单位为ug。
方程表明,铁元素含量与血红蛋白含量存在正相关,而钙元素含量与血红蛋白含量存在负相关性,由此,当人体内血红蛋白浓度偏低时,就需要补充铁元素,减少钙元素的摄入量,铜元素则没有显著性影响。