当前位置:文档之家› 方差分析及回归分析

方差分析及回归分析

方差分析及回归分析 Revised as of 23 November 2020第九章 回归分析教学要求1.一元线性回归及线性相关显着性的检验法,利用线性回归方程进行预测。

2.可线性化的非线性回归问题及简单的多元线性回归。

⏹本章重点:理解线性模型,回归模型的概念,掌握线性模型中参数估计的最小二乘法估计法。

⏹教学手段:讲练结合 ⏹课时分配:6课时§ 一元线性回归回归分析是研究变量之间相关关系的一种统计推断法。

例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量。

Y 与x 之间的相依关系f(x)受随机误差ε的干扰使之不能完全确定,故可设有:ε+=)(x f y ()式中f(x)称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量。

为估计未知的回归函数f(x),我们通过n 次独立观测,得x 与y 的n 对实测数据(x i ,y i )i=1,……,n ,对f(x)作估计。

实际中常遇到的是多个自变量的情形。

例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关。

这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:ε+=),,,(21k x x x f y这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数f(x 1,……,x k )称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计f(x 1,……,x k )。

以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数f(x 1,……,x k )的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定f(x 1,……,x k )=b 0+b 1x 1+……+b k x k 。

并称由它确定的模型 (k=1)及为线性回归模型,对于线性回归模型,估计回归函数f(x 1,……,x k )就转化为估计系数b 0、b i (i=1,……,k) 。

当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的。

§9.1.1 一元线性回归一、一元线性回归的数学模型前面我们曾提到,在一元线性回归中,有两个变量,其中x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。

通过散点图或计算相关系数判定y 与x 之间存在着显着的线性相关关系,即y 与x 之间存在如下关系:y=a+bx+ε通常认为 ε~N (0,σ2)且假设σ2与x 无关。

将观测数据(x i ,y i )(i=1,……,n)代入再注意样本为简单随机样本得:),0(,),,1(21σεεεN n i bx a y n i i i 独立同分布 =++=称或(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。

对其进行统计分析称为一元线性回归分析。

不难理解 模型中EY=a+bx ,若记y=E(Y),则y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称a 、b 为回归系数。

我们对一元线性回归模型主要讨论如下的三项问题:(1) 对参数a ,b 和σ2进行点估计,估计量b aˆ,ˆ称为样本回归系数或经验回归系数,而x b a yˆˆˆ+=称为经验回归直线方程,其图形相应地称为经验回归直线。

(2) 在模型下检验y 与x 之间是否线性相关。

(3) 利用求得的经验回归直线,通过x 对y 进行预测或控制。

二、a 、b 的最小二乘估计、经验公式现讨论如何根据观测值(x i ,y i ),i=1,2,……,n 估计模型()中回归函数f(x)=a+bx 中的回归系数。

采用最小二乘法,记平方和∑=--=nt t t bx a y b a 12)(),(Q找使Q 达到最小的a 、b 作为其估计,即),(min )ˆ,ˆ(b a b aQ Q = 为此,令⎪⎪⎪⎩⎪⎪⎪⎨⎧=--==--=∑∑==0)(220][2211n t t t t nt t t x bx a y bx a y a 2b Q 2Q化简得如教材所示的方程组(称为模型的正规方程) 解得⎪⎪⎩⎪⎪⎨⎧===x b y aL L b xxxy ˆˆˆ所示的b a ˆ,ˆ分别称为a 、b 的最小二乘估计,式中 ()∑∑∑===-=-=n i ni n i i i i xx x n x x x L 112122)(1∑∑∑∑==-=--=n i n i ni ni i i i i xy y x n y x y y x x L 1111))((1))((称x b a yˆˆˆ+=为经验回归(直线方程),或经验公式。

例1 某种合成纤维的强度与其拉伸倍数有关。

下表是24个纤维样品的强度与相应的拉伸倍数的实测记录。

试求这两个变量间的经验公式。

将观察值(x i ,y i ),i=1,……,24在平面直角坐标系下用点标出,所得的图称为散点图。

从本例的散点图看出,强度y 与拉伸倍数x 之间大致呈现线性相关关系,一元线性回归模型是适用y 与x 的。

现用公式()求b aˆ,ˆ,这里n=24 946.1171.11324193.650756.1301.1135.1272416.731266.1525.12724161.8296.731,93.650,61.8291.113,5.1272222=⨯-==⨯⨯-==⨯-======∑∑∑∑∑yy xy xx iiiii i L L L yx y xy x∴15.0ˆˆ859.0ˆ=-===x b y aL L b xxxy 由此得强度y 与拉伸倍数x 之间的经验公式为 x y859.015.0ˆ+= 三、最小二乘估计b a ˆ,ˆ的基本性质 定理 一元线性回归模型中,a 、b 的最小二乘估计b a ˆ,ˆ满足: (1) b bE a a E ==ˆ,ˆ (2) 2221)ˆ(,)1()ˆ(σσxxxxL bD L xn aD =+=(3) 2)ˆ,ˆcov(σxxL x b a-= 证:(1) 注意到对任意i=1,2,……,n 有a xb x b a b E x y E aE bLxxx x b y y x x E Lxx b E x x b y E Ey y y E Dy x b a y E bx a Ey ni i ni i i i i i i i i =-+=-==-=--=-=-=-=+=+=∑∑==ˆˆ)())((1ˆ)()(,,,12122于是σ(2)利用∑==-ni i x x 10)(,将b 、aˆˆ表示为: ∑∑==-=--=ni i i n i i i y x x Lxx y y x x Lxx b 11)(1))((1ˆ ∑∑==--=-=ni i i n i i y Lxx x x x nb x y n a 11])(1[ˆ1ˆ 由于y 1,y 2,……,y n 相互独立,有2221222212221222)1(])(1[])(1[)ˆ()(1)ˆ(σσσσσxxn i xx i ni i ni i xx L xn L x x x n Lxx x x x n a D Lxx x x L b D +=-+=--==-=∑∑∑=== 221221222)(])(1[)()ˆ,ˆcov(σσσxx ni xx i n i xx i xx i L x L x x x L x x x n L x x b a -=--=---=∑∑== 定理表明,a 、b 的最小二乘估计b 、aˆˆ是无偏的,从,还知道它们又是线性的,因此所示的最小二乘估计b 、aˆˆ分别是a 、b 的线性无偏估计。

§9.1.2 建立回归方程后进一步的统计分析一、σ2的无偏估计由于σ2是误差εi (i=1,……,n)的方差,如果εi 能观测,自然想到用∑ii n 21ε来估计σ,然而εi 是观测不到的,能观测的是y i.。

由i i i y x b a y Eˆˆˆˆ=+= (即Ey i 的估计),就应用残差i i yy ˆ-来估计i ε,因此,想到用∑∑===--=-n i i i n i i i b a Q nx b a y n y y n 1212)ˆ,ˆ(1)ˆˆ(1)ˆ(1 来估计σ2,我们希望得到无偏估计,为此需求残差平方和)ˆ,ˆ(b aQ 的数学期望,由定理可推出 2)2()]ˆ,ˆ([σ-=n b aQ E (学员自验) 于是得∑=--=-=n i i i y y n n b a Q 122)ˆ(212)ˆ,ˆ(ˆσ为σ2的无偏估计,例如§例1中2545.0ˆ=σ即有 定理 令2)ˆ,ˆ(ˆ2-=n b a Q σ,则22ˆσσ=E 。

我们称2)ˆ,ˆ(ˆ-=n b aQ σ为标准误差,它反映回归直线拟合的程度。

具体计算时可用)1()1(ˆ)ˆ,ˆ(222r L L L L L L b L b a Q yy yyxx xy yyxx yy -=-=-=。

二、预测与控制 1、预测问题对于一元线性回归模型⎪⎩⎪⎨⎧++=),0(~2σεεN bx a y ()我们根据观测数据(x i ,y i ),i=1,…,n ,得到经验回归方程x b a yˆˆˆ+=,当控制变量x 取值x 0(x 0≠x i ,i=1,…,n ),如何估计或预测相应的y 0呢这就是所谓的预测问题,自然我们想到用经验公式,取0ˆˆˆx b a y+=来估计实际的0ε++=bx a y ,并称0ˆy 为0y 点估计或点预测。

在实际应用中,若响应变量y 比较难观测,而控制变量x 却比较容易观察或测量,那么根据观测资料得到经验公式后,只要观测x 就能求得y 的估计和预测值,这是回归分析最重要的应用之一,例如在§例1中,拉伸倍数x 0=,则可预测强度59.65.7859.015.0ˆ0=⨯+=y但是,上面这样的估计用来预测y 究竟好不好呢它的精度如何我们希望知道误差,于是就有考虑给出一个类似于置信区间的预测区间的想法。

定理 对于一元(正态)线性模型⎩⎨⎧=++=),(独立同分布2210,,),,1(σεεεN n i bx a y ii i ()有 (1) )ˆ,ˆ(b a 服从二元正态分布。

相关主题