当前位置:文档之家› 统计学--第九章直线回归与相关

统计学--第九章直线回归与相关


若无充分理由证明超过自变量取值范围还 是直线,应该避免外延
第五节 相关
一、相关系数的意义
说明两变量(x,y)间关系密切程度的统计指标
叫相关系数coefficient of correlation,用r表

r lxy
l xx l yy
r2
l
2 xy
blxy
lxxlyy lyy
r是说明具有直线关系的两个变量间,相关 关系的密切程度与相关方向的指标。
1 r
1 r
Z值亦可直接查附表9-2
Z值标准误的近似值为:
Sz
1 n3
两个Z值差别的标准误为:
S ( z1 z2 )
S2 z1
S2 z2
u Z1 Z2 S( z1 z2 )
11 n1 3 n2 3
五、总体相关系数的区间估计
将r进行Z转换,对Z用正态法估计95%可信 区间,最后将Z作反变换,得相关系数95% 可信区间
z u / n 3
r
e2Z e2Z
1 1
六、相关和回归的关系
(一)区别:
1、资料要求不同:
– 回归要求应变量Y服从正态分布,X是可以精确 测量和严格控制的变量,一般称为I型回归。
– 相关要求两个变量服从双变量正态分布,这种 资料若进行回归分析,称II型回归。可得到由X 推Y和由Y推X两个回归方程
S S y.x
1 n
x2 (xi x)2
五、两条回归线高度差别的统计意义检验
当两条回归线的回归系数的差别无统计意义时, 可以用一公共的斜率来拟合此两条回归线。(见 P121,一般了解)
第四节 直线回归方程的应用
一、描述两变量的依存关系 二、利用回归方程进行预测 三、利用回归方程进行统计控制 统计控制:是利用回归方程进行逆估计, 如要求应变量在一定范围波动,可以通过 自变量的取值来实现。 四、应用直线回归方程应注意的问题 1、作回归分析要有实际意义,不能把毫无
( y yˆ )2
n2
(y
yˆ )2
lyy
lx2y lxx
(
y
y)2
[
(x x)(
(x
y x)2
y)]2
lyy的分析: p点的纵坐标被回归线、均数y 截成三段
SS总=SS回+SS剩 SS总= (y y)2:
说明未考虑x与Y的回归关系时Y的变异
SS回= (yˆ y)2:回归平方和
说明在Y的总变异中由于X与Y的直线关系 而使Y变异减少的部分,即总平方和中可以 用X解释的部分
四、两个相关系数差别的统计意义检验
只有当从=0的总体中随机抽样,各样本 相关系数r的分布才接近正态分布。
若从0的总体中随机抽样,样本相关系数 并不呈正态分布。
数理统计证明:把r按下式转换成Z值时,则 不论为何值,Z值的分布均近似正态分布
P125,例9-4
Z ln 1 r 或Z 1.513lg 1 r
3、用回归解释相关
(1)r的平方称为决定系数coefficient of determination
r2
l
2 xy
lx2y / lxx SS回
l xx l yy
l yy
SS总
说明SS总固定不变时,回归平方和的大小 决定了r的大小。回归平方和越接近总平方 和,则r越接近1。r2表示回归平方和在总平 方和中所占的比例,即总变异中可以用回 归解释的部分,说明两变量间的相关关系 的实际意义
6)直线回归方程图示:在自变量x的实测全 距范围内任取相距较远且易读的两x值,代 入回归方程求y的估计值,在图绘出两点连 成直线。
注意:所绘直线必然通过 (x, y) ,若纵坐
标、横坐标无折断号时,将此直线左端延 长与纵轴相交,交点的纵坐标必然等于截 距a,这两点可用来核对回归线绘制是否正 确。
第二节 直线回归分析中误差及 可信区间
t值的自由度为Sy.x的自由度n 2
理论上,每个xi对应的y估计值都有一个区 间估计,把这些可信区间的上限和下限连
起来,为两条曲线。把这两条曲线间的空
间称为回归直线的可信区间。
八、截距的误差及总体参数的可信区间 由于截距是x=0时y的估计值,
S S y.x
1 n
x2 (xi x)2
九、单一个体yi值的范围预测
2、直线回归方程
– 直线方程:y=a+bx – 直线回归方程:
yˆ a bx
– a:为回归直线在Y轴上的截距intercept,a>0 表示直线与纵轴的交点在原点的上方,a<0交 点在原点的下方。a=0则回归直线通过原点
– b:回归系数regression coefficient,为直线的 斜率slope,b>o直线从左下走向右上, b<0从左 上走向右下, b=0直线与横轴平行。意义:x每 增(减)一单位,Y平均改变b个单位
t值的自由度为Sy.x的自由度n 2
六、 yˆi 的标准误
当xix时, yˆi 的变异不仅决定于y的误差, 也与回归系数b的误差有关
S 2 yˆ i
S
2 y.x
[
1 n
(xi x)2 ] (xj x)2
七、 yˆ ( xxi )
(个体y值)的可信区间
yˆ i t0.05( )S yˆi yˆ (xxi ) yˆ i t0.05( )S yˆi
3、最小二乘法
– 样本含量为n的的样本资料标在(x,y)平面上,可 得n个点,故可确定很多直线,直线回归的主 要目标之一是用实测的x估计y,所以希望估计 的y与实测的y间的误差愈小愈好。即从所有直 线中找到一条直线使估计误差平方和达最小。
– 即
( y yˆ )2 最小
二、求直线回归方程的基本方法
lx2y lxx
b2lxx
SS剩=SS 总-SS回
二、实测值围绕回归线的离散度
回归分析时假设:X取某一值时,Y围绕回 归线+x呈正态分布,Sy.x是其标准差的 估计值。
故可估计出约有95%观测值y在总体回归线 y= +x上下1.96个标准估计误差范围内, 见P112图9-3
三、回归系数的标准误
r没有单位,其值为-1r1,值为正时表示 正相关,为负时表示负相关;绝对值为1时 表示完全相关。(生物界少见)
r是总体相关系数(rho)的估计值
二、相关系数的计算方法
用上述公式直接计算(小样本未分组资料)
三、相关系数的统计意义检验-t检验
样本相关系数r是总体相关系数的估计值。 即使从=0的总体中随机抽样,由于抽样 误差的影响,所得的r值也常不等于0。
b lxy lxx
xy xy
n x2 ( x)2
n
a y bx y b x
n
n
yˆ ( y bx) bx
P110例9-1: 1)由原始数据绘散点图,各点分布呈直线趋 势,故作下列计算
2)求x, y, x2, y2, xy 3)计算x,y的均数,lxx、lyy和lxy 4)求回归系数b和截距a 5)列出回归方程
– 直线回归分析的任务:找出一条最能代表这些 数据关系的一条直线。
– 方法:一般采用最小二乘法least square method找出一条各实测点与它的纵向距离的平 方和为最小的直线回归方程。又称作最小二乘 回归
– 变量y随变量x而变化,称x为自变量 independent variable,y为应变量dependent variable.
关联的两种现象勉强作回归分析,即便有 回归关系,也不一定有因果关系,还必须 对两种现象间的内在联系有所认识,即能 从专业理论上作出合理解释或有所依据
2、在进行直线回归分析时,应绘散点图, 当观察点的分布有直线趋势,才适宜作直 线回归分析。散点图还能提示资料有无异 常点,异常点对方程估计影响较大
3、直线回归方程的适用范围一般以自变量 的取值范围为限,在此范围求出y的估计值, 称为内插,超出自变量取值范围称外延。
第三节 回归系数和截距的统计 意义检验
一、回归系数的t检验
tb
b Sb
,
n
2
Sb
S y.x (x x)2
二、回归系数的方差分析
F MS回 = SS回 /回 MS剩 SS剩 / 剩
所得结论与t检验相同
三、两个回归系数差别的统计意义检验
t b1 b2 S(b1 b2 )
两回归系数差别的标准误:
(2)剩余平方和相等,但相关系数可相差很 大,相关系数随着直线斜率的增加而增大。 可见相关系数的大小与剩余平方和及回归 系数有关,故相关系数不能作为回归估计 精度的指标。
只有在相关系数有统计意义时,才能根据 绝对值的大小来说明x,y相互关系的密切程 度。
t r0 Sr
r r 1 r2
n2 1r 2
n2
n 2,查附表4-1,t值表
Sr为相关系数的标准误
相关系数的统计意义也可直接查相关系数 统计意义界限表(附表9-1,P566),若不 能直接查得,可用内插法估计
S y.x
S yˆ ( xi x )
S y.x n
五、 yˆ(xix) 的可信区间 yˆ (xi x) 是总体均数 yˆ (xi x)
的估计值
95%可信区间:
yˆ t S yˆ t S (xi x)
0.05( ) yˆ ( xix )
yˆ ( xix )
( xi x )
0.05( ) yˆ ( xix )
SS剩= ( y yˆ )2:剩余平方和
反映X对Y的线性影响之外的一切因素 对Y的变异的作用,即总平方和中 无法用X解释的部分
P y - ^y
Y
y-y
^y - y-
y
X
各实测点离回归直线越近,剩余平方和愈 小,说明直线回归的估计误差愈小
总=回+剩 总=n-1,回=1,剩=n-2SS回Βιβλιοθήκη blxyS (b1 b2 )
相关主题