当前位置:文档之家› 多元的线性回归分析报告材料地基本思想和方法

多元的线性回归分析报告材料地基本思想和方法

第一节引言在第一章我们讨论了因变量y只与一个自变量x有关的一元线性回归问题。

但在实际中我们常常会遇到因变量y与多个自变量有关的情况,这就向我们提出了多元回归分析的问题。

多元回归中最简单的是多元线性回归。

多元线性回归分析的基本思想和方法与一元线性回归分析是相同的,即使残差平方和Q达到最小值。

但是,由于多元线性回归分析涉及多个变量之间的相关关系,使问题变得更加复杂。

假设随机变量y 与p个自变量之间存在着线性相关关系,实际样本量为n,其第i次观测值为则其n次观测值可写为如下形式:(2-2-1)其中是未知参数,是p个可以精确测量并可控制的一般变量,是随机误差。

和一元线性回归分析一样,我们假定是相互独立且服从同一正态分布N(0, )的随机变量。

若将方程组(2-2-1)用矩阵表示,则有(2-2-2)式中多元线性回归分析的首要任务就是通过寻求的估计值b,建立多元线性回归方程(2-2-3)来描述多元线性模型(2-2-4)本章主要介绍以下内容:用最小二乘原理估计和,对回归方程和回归系数的显著性进行检验,利用回归方程进行予报和控制,以及在估计的过程中解线性方程组要用到的高斯消去法和消去变换。

第二节多元线性回归方程的建立建立多元线性回归方程,实际上是对多元线性模型(2-2-4)进行估计,寻求估计式(2-2-3)的过程。

与一元线性回归分析相同,其基本思想是根据最小二乘原理,求解使全部观测值与回归值的残差平方和达到最小值。

由于残差平方和(2-2-5)是的非负二次式,所以它的最小值一定存在。

根据极值原理,当Q取得极值时,应满足由(2-2-5)式,即满足(2-2-6)(2-2-6)式称为正规方程组。

它可以化为以下形式(2-2-7)如果用A表示上述方程组的系数矩阵可以看出A是对称矩阵。

则有(2-2-8)式中X是多元线性回归模型中数据的结构矩阵,是结构矩阵X 的转置矩阵。

(2-2-7)式右端常数项也可用矩阵D来表示即因此(2-2-7)式可写成Ab=D (2-2-10)或(2-2-11)如果A满秩(即A的行列式)那么A的逆矩阵A-1存在,则由(2-10)式和(2-11)式得的最小二乘估计为(2-2-12)也就是多元线性回归方程的回归系数。

为了计算方便往往并不先求,再求b,而是通过解线性方程组(2-2-7)来求b。

(2-2-7)是一个有p+1个未知量的线性方程组,它的第一个方程可化为(2-2-13)式中(2-2-14)将(2-2-13)式代入(2-2-7)式中的其余各方程,得(2-2-15)其中(2-2-16)将方程组(2-2-15)式用矩阵表示,则有Lb=F (2-2-17)其中于是b=L-1F (2-2-18)因此求解多元线性回归方程的系数可由(2-2-16)式先求出L,然后将其代回(2-2-17)式中求解。

求b时,可用克莱姆法则求解,也可通过高斯变换求解。

如果把b直接代入(2-2-18)式,由于要先求出L的逆矩阵,因而相对复杂一些。

例2-2-1 表2-2-1为某地区土壤内含植物可给态磷(y)与土壤内所含无机磷浓度(x1)、土壤内溶于K2CO3溶液并受溴化物水解的有机磷浓度(x2)以及土壤内溶于K2CO3溶液但不溶于溴化物的有机磷(x3)的观察数据。

求y对x1, x2, x3的线性回归方程。

表2-2-1 土壤含磷情况观察数据计算如下:由(2-2-16)式代入(2-2-15)式得(2-2-19)若用克莱姆法则解上述方程组,则其解为(2-2-20)其中计算得b1=1.7848,b2=-0.0834,b3=0.1611回归方程为应用克莱姆法则求解线性方程组计算量偏大,下面介绍更实用的方法——高斯消去法和消去变换。

第三节高斯消去法与消去变换从上节的讨论我们知道,要建立多元线性回归方程需要求解线性方程组。

当n较大时解线性方程组变得相当困难。

本节介绍的高斯消去法与消去变换是目前用来解多元线性方程组的方法中比较简单可行的方法。

一、高斯消去法高斯消去法就是通过矩阵的行变换达到消元的目的,从而将方程组的系数矩阵由对称矩阵变为三角矩阵,最后获得方程组的解。

为简明起见,下面我们利用四元线性方程组来说明高斯消去法的基本思路和解题步骤,对于自变量数更多的元线性方程组,其解题步骤和方法是一样的,只是计算工作量更大些而已。

设方程组为(2-2-21)将其记为矩阵形式,则(2-2-22)现在我们的目的是使A变为三角矩阵,从而获得方程组(2-2-21)的解。

假定a11≠0,我们首先保留矩阵的第一行,并利用它来消去其余三行中的第一列。

(2-2-23)即(2-2-24) i- ×①(其中①和i分别为矩阵中①行和i行),得(2-2-25)其中(2-2-26)同理,若,可在保留矩阵A(1)的第一行和第二行的基础上消去第三第四行中的第二列,即令(2-2-27)即(2-2-28)由i - ×①得(2-2-29)其中(2-2-30)同理,若,还可以进一步消元令(2-2-31)可得(2-2-32)其中(2-2-33)经过上述消元过程,方程组(2-2-21)就变成(2-2-34)假如,我们就可以先从最后一个方程求出,然后向上反推,依次求出和。

,即(2-2-35)通常,将由式(2-2-21)逐步化成式(2-2-34)的各步称为消元过程,而称式(2-2-35)为回代过程。

下面我们用高斯消去法求解例2-2-1中的b1,b2,b3。

将方程组写成矩阵形式,则由(2-2-23)、(2-2-24)和(2-2-26)式,得由(2-2-27)、(2-2-28)和(2-2-29)式,得再由(2-2-35)式回代,即得b3=0.16113 b2=-0.083397 b1=1.7848同样由(2-2-13)式b0=43.67由上述运算过程可见,用高斯消去法求解线性方程组,要比用克莱姆法则简单的多。

事实上,我们在使用高斯消去法时,并不需要熟记烦琐的公式,而只需掌握高斯消去法的思路即可完成上述运算过程。

上述消元过程是按照给定的自然顺序,即按的顺序逐个消元的,亦即在第k步消元时,是从第k-1步的方程(2-2-36)作为保留方程,并利用其以下的各方程作线性组合来消去各自所含的xk(使其系数为零),我们称(2-2-36)式和它的系数分别为第k步的主方程和主行,xk的系数为第k步的主元素。

从上面介绍的简单高斯消去法中我们可以知道,为保证消元正常进行,必须保证存在,即第k步消元时要求主元素。

事实上,即使,如果其绝对值相当小,也会使很大,以致于在计算机上运算时溢出而使消元中断,或使最终误差很大。

为了避免上述情况出现,需要在每步消元进行之前做主元素选取。

选取主元素的原则是选择中绝对值最大值作为主元素。

选择方法有两种,一种是按列选取主元素,然后通过行变换使其达到(k,k)位置上,然后进行消元计算。

另一种是全面选择主元素,通过行变换和列变换使其达到(k,k)位置上,然后进行消元计算。

这种先选择主元素,再进行消元的方法称为高斯主元素法。

二、消去变换上面介绍了用高斯消去法求解线性方程组的过程。

用高斯消去法的思想,还可求出线性方程组系数矩阵的逆矩阵。

这在回归分析的假设检验中,是要经常用到的。

求A的逆矩阵的具体做法是作一个更大的增广矩阵(2-2-37)用高斯消去法将A变成单位矩阵,这相当于用A-1分别乘矩阵(2-37)中的A,C,I n,得(I n:A-1C:A-1)这样就得到了A的逆矩阵A-1。

现在我们用这种方法求解线性方程组(2-2-19)的解b及正规矩阵L的逆L-1。

由方程组(2-2-19),并做初等变换如下:于是消去变换总结了上述消去过程,将它的运算表现为算子的形式,这样既节省了存储单元,又易于编制计算机程序。

其详细的做法如下:设,如果,规定以下变换规则:(1)当时,把换成(2)当时,把换成(3)当时,把换成(4)换成经过上述变换,矩阵A变成(2-2-38) 其中*部分第(k,l)位置的元素是(2-2-38)即为对矩阵A进行了(i,j)消去变换后的矩阵,记为,上述变换又称为变换。

变换有如下性质:如果用消去变换的方法求线性方程组的逆矩阵,可以先做增广矩阵(2-2-39) 对其施行消去变换,则变为(2-2-40)便得到线性方程组的解,A的逆矩阵。

最后一个对角元素在回归分析中将得到残差平方和,以后将会详细介绍。

第四节回归方程和回归系数的显著性检验在一元线性回归分析中,我们通常可以首先通过散点图判断变量x与y之间是否存在线性关系。

如果散点图上的实验数据接近于某一条直线,我们便可直观地初步认为二者之间存在线性关系。

但在多元线性回归分析中情况略有不同。

首先我们无法用直观的方法帮助判断y与之间是否有线性关系,为此必须对回归方程进行显著性检验。

其次在p个自变量中,每个自变量对y的影响程度是不同的,甚至有的自变量可有可无。

这表现在回归系数中有的绝对值很大,有的很小或接近于零,这就需要对回归系数进行显著性检验。

一、回归方程的显著性检验对回归方程的显著性检验是指检验假设(2-2-41)如果H0成立,说明不论如何变化,y并不随之而改变,显而易见,在这种情况下用模型(2-2-4)来表示y与自变量的关系是不和适的。

如果H0不成立,说明中至少有一个不等于零,从而y至少随中之一的变化而线性变化。

因此,对回归方程显著性检验是从整体上看y与是否存在线性关系。

与一元线性回归一样,为了建立对H0进行检验的统计量,将总偏差平方和L yy进行分解。

(2-2-42) 其中回归平方和(2-2-43) 残差平方和(2-2-44) 可以证明当H0成立时与相互独立。

因此当H0成立时对于给定的显著性水平,当计算得到的F值满足时,H0不成立,认为在显著性水平下,y与有显著的线性关系,即回归方程是显著的。

反之,则认为回归方程不显著。

这一检验过程与一元线性回归方程的检验相类似,也可在一张分析表中进行,其中和分别由(2-2-43)式和(2-2-44)式计算,方差分析表2-2-2所示。

表2-2-2 方差分析表例如,对于例2-2-1所得多元线性回归方程,可做显著性检验如下:由(2-2-43)式由(2-2-42)式由(2-2-44)式将上述结果代入表2-2-2中制成方差分析表如表2-2-3表2-2-3 例2-2-1方差分析表查F分布表,知时F 0.01(3.14)=5.56。

因为F=5.688>5.56,即F>F0.01,所以回归方程十分显著,在表2-2-3中标以**。

上述检验证明,在例2-2-1中的三个自变量都与因变量有线性关系,且回归方程是十分显著的。

二、回归系数的显著性检验在处理多元回归的实际问题时,我们往往并不满足于判断回归方程的显著性。

因为当我们经过检验认为方程是显著时,即拒绝了这一假设,并不意味着一切都不等于零,即并不意味着每一个自变量对因变量y的影响都是显著的。

相关主题