第七章回归分折
讨论随机变量与非随机变量之间的关系的问题称回归分析;讨论随机变量之间的关系的问题称相关分析.关于这两种问题,或统称回归分析,或统称相关分析都能够.
然而,自然界的众多的变量间,还有另一类重要关系,我们称之为相关关系.例如,施肥量与农作物产量之间的关系,这种关系虽不能用函数关系来描述,但施肥量与产量有关系,这种关系确实是相关关系,又比如,人的身高与体重的关系也是相关关系,尽管人的身高不能确定体重,但总的讲来,身高者,体也重些,总之,在生产斗争与科学实验中,甚至在日常生活中,变量之间的相关关系是普遍存在的.事实上,即使是具有确定性关系的变量间,由于实验误差的阻碍,其表现形式也具有某种的不确定性.
回归分折方法是数理统计中一个常用方法,是处理多个变量之
间相关关系的一种数学方法,.它不仅提供了建立变量间关系的数学表达---通常称为经验公式的一般方法,而且还能够进行分析,从而能判明所建立的经验公式的有效性,以及如何利用经验公式达到预测与操纵的目的.因而回归分析法得到了越来越广泛地应用.回归分析要紧涉及下列内容:
(1)从一组数据动身,分析变量间存在什么样的关系,建立这些变量
之间的关系式(回归方程),并对关系式的可信度进行统计检验;
(2)利用回归方程式,依照一个或几个变量的值,预测或操纵男一个变量的取值;
(3)从阻碍某一个变量的许多变量中,推断哪些变量的阻碍是显著
的,哪些是不显著的,从而可建立更有用的回归方程,
(4)依照预测和操纵所提出的要求,选择试验点,对试验进行设计.
我们在本章,重点讨论一元线性回归,对多元回归只作简单地介绍.
§1 一元线性回归
一元线性回归分析中要考察的是:随机变量Y与一个一般变量x之间的联系。
对有一定联系的两个变量:
x 与Y ,
我们的任务是依照一组观看值
1,12,2,(),(),
,(),n n x y x y x y
推断Y 与x 是否存在线性关系
y a bx ε=++,
我们能否通过这组观看值将确定系数a 与b 出来呢?这确实是回归问题要解决的问题,且推断Y 与x 是否真存在此线性关系.
一 . 经验公式与最小二乘法:
【例1】 纤维的强度与拉伸倍数有关.下表给出的是24个纤维样品的强度与拉伸倍数的实测记录.我们希望通过这张表能找出强度y 与拉伸倍数x 之间的关系式
们将观看值,()(124)i i x y i ≤≤作为24个点,将它们画在平
面上,这张图称为散点图,这散点图启发我们,这些点尽管是散乱的,但大体上散布在一条直线的周围.也确实是讲,拉伸倍数与强度之间大致成线性关系.我们用
(*)
确定,是线性的,要完全确定经验公式,
就要确定(*)中的系数a 和b ,那个地点b 通常称为 回归系数,关系式
叫做回归方程.
从散点图来看,要找出a 与b 是不困难的,在图上划一条直线,使该直线总的来看最“接近”这24个点.因此,这直线在y 轴上的截距确实是所求的a ,它的斜率确实是所求的b .几何方法尽管简单,然而太祖糙,而对非线性形式的问题,就几乎无法实行.然
而,它的差不多思想,即“使该直线总的讲来最接近这24个点”,却是专门可取的,问题是把这差不多思想精确化,数量化.下面介绍一种方法,求一条直线使其“总的来看最接近这24个点”,这确实是最小二乘法.
给定的n 个点1122(,),(,),,(,)n n x y x y x y ,那么,关于平面上任意一
条直线
l : y a bx =+
我们用数量
2[()]i i y a bx -+
来刻画点(,)i i x y 到直线l 的远近程度, 因此二元函数
2
1
(,)[()]n
i i i Q a b y a bx ==
-+∑ 就定量的描述了直线l 跟那个n 点的总的远近程度,那个量是随不同的直线而变化,或者讲是随不同的a 与b 而变化的,因此要找一条直线, 使得该直线总的来看最“接近” 这 n 个点的问题就转化为:
要找两个数a 与b , 使得二元函数(,)Q a b 在ˆˆ,a a b b ==处达到最小, 即
ˆˆ(,)min((,))Q a
b Q a b = 由因此(,)
Q a b n 个量平方之和,因此“使(,)Q a b 最小”的原则
称为平方和最小原则,适应上称为最小二乘原则.由最小二乘原则求a 与b 可能值的方法称为最小二乘法.
按照最小二乘原则,具体求ˆˆ,a
b 的问题确实是利用极值原理,
求解二元一次联立
方程组有唯一解:
因此,关于给定的n个点1122
x y x y x y,先算出ˆb,
(,),(,),,(,)
n n
再算出ˆa,就得到了所求的回归方程:
可计算【例1】的
因此所求经验公式, 即回归方程为
【例2】P.236―――例1.2
对任意两个相关变量,即使它们不存在线性关系,都能够通过它们的一组观测值用最小二乘法,在形式上求得Y 和X 的回归直线方程. 实际上,假如Y 和X 没有线性相关关系,所求的回归直线方程是没有意义的.因此建立了回归直线方程之后,还需要推断Y 与
X
间是否真
有线性相关关系,这确实是回归效果的检验问题.称为回归效果的显著性检验. 首先介绍“平方和分解公式”.
二. 平方和分解公式与线性相关关系::
关于任意的n 组数据1122(,),(,),
,(,)n n x y x y x y , 恒有:
22
1
1
ˆ()()n
n
i i i i i y y y y ==-=-∑∑+ 21
ˆ()(1)n
i
i y y =-∑’
其中 ˆi y ˆˆ,(1,2,,)i
a bx i n =+= 现记
yy l =
2
1
()n
i i y y =-∑, 21
ˆ()n
i i U y y ==-∑,
2
1
ˆ()n
i i i Q y y ==-∑ 则平方和分解公式是:
(1)yy l U Q
'=+
证明:
因为ˆˆa
y b x =- , 1
2
1
()()
ˆ()
n
i
i i n
i
i x
x y y b x
x ==--=-∑∑, 同时
=0
因此
yy l U Q
=+
即 2
2
1
1
ˆ()()n
n
i i i i i y y y y ==-=-∑∑+ 21
ˆ()n
i
i y y =-∑
ˆi y =ˆˆi
a bx +是回归直线上, 其横坐标为i x 点的纵坐标,
因为
因此1ˆ,y 2ˆ,y ˆ,n y
的平均值也等于y .
我们还能够通过,,yy l U Q 的均值,进一步讲明它们之间的关系.
有了上面这些关于,,yy l U Q 的分析表明:
(1)(1,2,,)i y i n =的离差平方和由两部分组成:
回归平方和U 和残差平方和Q , 其中Q 完全由随机因
素引起,
(2)U 中尽管也有随机因素,然而当0b ≠时,要紧是由X 与Y 线
性相关关系决定.因而U 与Q 之比的比值反映了这种线性相关关系与随机因素对Y 的阻碍的大小.比值越大,线性相关关系越强.大到什么程度才能讲明有线性相关关系,还要进行检验,因而应查找检验的统计量.
则
ˆˆ,;xy
xx l b a y bx U l ==-=2ˆxx b l =ˆ,xy yy bl Q l U =-.
(参看P.244+3, 注意: 这是常用的计算公式)
三.相关性检验:
(1)提出原假设: :0H b =
(2)选择统计量: /(2)U
F Q n =-
(3)求出在假设H 成立的条件下, (1,2)F
F n - , (4)选择检验水平α,查第一 自由度为1与第二 自由度为2n -.的,
F - 分布表(附表4),得临界值λ ,使得
(),P F λα>=
(5) 依照样本值计算统计量的观看值F ,给出拒绝或同意H 。
的推断:。