当前位置:文档之家› 统计学线性回归分析

统计学线性回归分析


t 检验方法 前已算得 :
n 12 SS剩 19.6 lXX 41389 .4 b 0.0648
SYX
19.6 1.40 12 2
sb
1.40 0.00688 41389 .4
t 0.0648 9.42 12 2 10
0.00688
注意:
(二)回归方程可信区间与预测 一、总体回归系数的区间估计
SS总 193 .3
SS回 blXY
l
2 XY
l XX
2681.62
173.7
41389.4
SS剩 SS总 SS回 193 .3 173 .7 19.6
F SS回 /回 MS回 173.7 /1 88.6 SS剩 / 剩 MS剩 19.6 /10
(2)计算统计量。见方差分析表
二、
Y
的区间估计

Y
是指总体中当X为一定值时的均数。把
x0 代入回归方程所求得的估计值,为样本条件
均数(condition
mean)。对总体
Y
的估计可
计算其可信区间,其标准误可按公式计算。
S ) Y0
SYX
1 n
(x0 X )2 (X X )2
SYX
1 (x0 X )2
n
lXX
上式用符号表示为
SS总 SS回 SS残
式中
SS总 即 (Y Y)2 ,为 Y 的离均差平方
和,表示未考虑 X 与Y 的回归关系时Y 的 总变异。
SS回 即 (Yˆ Y)2 ,为回归平方和。由于特定样本的
均数YY 是固定的,所以这部分变异由Yˆi 的大小不同引起。
当 X 被引入回归以后,正是由于 Xi 的不同导致了 Yˆi a bXi 不同,所以 SS回 反映了在 Y 的总变异中可以用 X 与 Y 的直线关系解释的那部分变异。
对一已知的自变量值 x0 按回归方程求出预测值 Yˆ,再
按下式求出此条件下100(1- )%的可信区间。
Yˆ0 t S / 2,n 2 Yˆ0
例12-6 (续例12-1) 根据例12-2所求直线回归方程,试计
算当x0 250
时,
Y
95%的可信区间。
Yˆ 2.00 0.0648X
SYX 1.40 x0 250
(7704X872.1)3
Y2
(5)
556.96
216.09
368.64
767.29
357.21
259.21
295.84
166.41 334.89
313.29
187.69
243.36
4066.9
(Y
2
)
XY
(6)
7214.52 2772.42 5322.24 10104.96 5392.17 3939.67 4401.48 1932.42 4920.87 4382.52 2312.56 3129.36
任意一点 P 的纵坐标被回归直线Yˆ 与均数Y 截 成三个线段,其中:Y Y (Yˆ Y ) (Y Yˆ) 。由于 P 点 是散点图中任取的一点,将全部数据点都按上法处 理,并将等式两端平方后再求和则有
(Y Y )2 (Yˆ Y )2 (Y Yˆ)2
数理统计可证明:
(Yˆ Y )(Y Yˆ) 0
55825.2 (ΣXY)
30
25
体重增加量(g),Y
20
15
10
5
130
180
230
280
330
380
进食量(g),X
图 12-1 12只大白鼠进食量与体重增重量散点图
在定量描述大白鼠进食量与体重增加量 数量上的依存关系时,习惯上将进食量作 为自变量(independent variable),用X表 示;体重增加量作为应变量(dependent variable),用Y表示。
例12-1 用某饲料喂养12只大白鼠, 得出大白鼠的进食量与体重增加量 如表12-1,试绘制其散点图。
表12-1 12只大白鼠的进食量(g)与体重增加量(g)测量结果
序号 (1) 1 2 3 4 5 6 7 8 9 10 11 12
合计
进食量(g)X
(2)
305.7 188.6 277.2 364.8 285.3 244.7 255.9 149.8 268.9 247.6 168.8 200.6
直线回归方程
一般表达式为
Yˆ a bX (12 1)
Yˆ 为各X处Y的总体均数的估计。
1.a 为回归直线在 Y 轴上的截距。
Y
➢ a > 0,表示直线 与纵轴的交点在
原点的上方;
➢ a < 0,则交点在 原点的下方;
0
➢ a = 0,则回归直 线通过原点。
a<0
a=0 a>0
X
2. b为回归系数,即直线的斜率。
第一节 直线回归
一、直线回归的概念
目的:研究应变量Y对自变量X的数量依 存关系。
特点:统计关系。 X值和Y的均数的关系, 不同于一般数学上的X 和Y的函数 关系。
为了直观地说明两相关变量的线性依存关 系,用表12-1第(2)、(3)列中大白鼠的进 食量和体重增加量的数据在坐标纸上描点,得
图12-1所示的散点图(scatter plot)。
个体Y值的容许区间
容许区间就是总体中X为某定值时,个体Y值的波动 范围,其标准差 SY0 按下式计算。
SY0 SYX
1 1 n
(x0 X )2 (X X )2
2957.9 (ΣX)
体重增加量(g) Y
(3)
23.6 14.7 19.2 27.7 18.9 16.1 17.2 12.9 18.3 17.7 13.7 15.6
215.6 (ΣY)
X2
(4)
93452.49 35569.96 76839.84 133079.04 81396.09 59878.09 65484.81 22440.04 72307.21 61305.76 28493.44 40240.36
变异来源 回归 剩余 总变异
SS 173.7 19.6 193.3
表 12-2 DF 1 10 11
方差分析表 MS
173.70 1.96
F
P
88.6
<0.001
(3)确定P值。查F界值表,P<0.001。
(4)下结论。按 0.05 水准,拒绝H0,接受
H1,故可以认为体重的增加量与进食量之间有直 线关系。
儿子身高(Y,英寸)与父亲身高(X,英
寸)存在线性关系:Yˆ 33.73 0.516X。
也即高个子父代的子代在成年之后的身高平 均来说不是更高,而是稍矮于其父代水平,而 矮个子父代的子代的平均身高不是更矮,而是 稍高于其父代水平。Galton将这种趋向于种族稳
定的现象称之“回归”。
目前,“回归”已成为表示变量之间某种 数量依存关系的统计学术语,并且衍生出“回 归方程”“回归系数”等统计学概念。如研究 糖尿病人血糖与其胰岛素水平的关系,研究儿 童年龄与体重的关系等。
b 离 0 越远,X 对 Y 的影响越大,SS回 就越大,说明 回归效果越好。
SS残 即 (Y Yˆ)2 ,为残差平方和。它反应除
了 X 对Y 的线性影响之外的一切因素对 Y 的变 异的作用,也就是在总平方和中无法用X 解释 的部分,表示考虑回归之后Y 真正的随机误差。 在散点图中,各实测点离回归直线越近,SS残 也 就越小,说明直线回归的估计误差越小,回归 的作用越明显。
F SS回 SS残
回 残
MS回 ,
MS残
回 1,
残 n2
式中
MS回 为回归均方 MS残 为残差均方。 F 服从自由度为回、 残 的F 分布。
SS回
blXY
l
2 XY
lXX b2lXX
2. t 检验
对 0 这一假设是否成立还可进行如下t 检验
例12-3 (续例12-1)根据表12-1数据进行回归 系数的方差分析。 解:先列出下列计算结果
第12章
双变量回归与相关
Linear Regression and Correlation
Content
1. Linear regression 2. Lineurve fitting
双变量计量资料:每个个体有两个变量值 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), …, (Xn,Yn) 目的:研究X和Y的数量关系 方法:回归与相关
上述三个平方和,各有其相应的自由度 ,并有如下的关系:
以上分解可见,不考虑回归时,随机误 差是 Y 的总变异 SS总 ;而考虑回归以后,由 于回归的贡献使原来的随机误差减小为SS残 。
如果两变量间总体回归关系确实存在,回归 的贡献就要大于随机误差,大到何种程度时可 以认为具有统计意义,可计算统计量F:
b 0.0648
(b t / 2, Sb , b t / 2, Sb )
n2
例12-5 (续例12-1)试估计总体回 归系数的95%的可信区间。
Sb 0.00688 二、 t0.05/ 2,10 2.228
(0.0648 2.228 0.00688, 0.0648 2.228 0.00688) (0.0495, 0.0801)
二 直线回归中的统计推断
1 回归系数的假设检验
建立样本直线回归方程,只是完成 了统计分析中两变量关系的统计描述, 研究者还须回答它所来自的总体的直线 回归关系是否确实存在,即是否对总体
有 0?
1.1回归系数的方差分析
理解回归中方差分析的基本思想, 需要对应变量Y 的离均差平方和lYY 作分 解如图 12-4 所示.
a Y bX 17.97 (0.0648)(246.49) 2.00
相关主题