当前位置:文档之家› 多元回归分析法的介绍及具体应用

多元回归分析法的介绍及具体应用

多元回归分析法的介绍及具体应用————————————————————————————————作者: ————————————————————————————————日期:ﻩ多元回归分析法的介绍及具体应用在数量分析中,经常会看到变量与变量之间存在着一定的联系。

要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。

回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。

这里主要讲的是多元线性回归分析法。

1. 多元线性回归的定义说到多元线性回归分析前,首先介绍下医院回归线性分析,一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。

其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。

一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。

例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。

因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。

这就产生了测定多因素之间相关关系的问题。

研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。

多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。

2. 多元回归线性分析的运用具体地说,多元线性回归分析主要解决以下几方面的问题。

(1)、确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式;(2)、根据一个或几个变量的值,预测或控制另一个变量的取值,并且可以知道这种预测或控制能达到什么样的精确度;(3)、进行因素分析。

例如在对于共同影响一个变量的许多变量(因素)之间,找出哪些是重要因素,哪些是次要因素,这些因素之间又有什么关系等等。

3. 多元线性回归分析 3.1多元线性回归分析的原理回归分析是一种处理变量的统计相关关系的一种数理统计方法。

回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。

3.2多元线性回归模型及其矩阵表示设y 是一个可观测的随机变量,它受到p 个非随机因索1x ,2x ,…,p x 和随机因素ε的影响,若y 与1x ,2x ,…,p x 有如下线性关系:εβββ++++=p p x x y 110 (1.1)其中0β,1β,…,p β是1+p 个未知参数,ε是不可测的随机误差,且通常假定),(20N ~σε.我们称式(1.1)为多元线性回归模型.称y 为被解释变量(因变量),),,2,1(p i x i =为解释变量(自变量).称 p p x x y E βββ+++= 110)(ﻩﻩﻩ (1.2) 为理论回归方程.对于一个实际问题,要建立多元回归方程,首先要估计出未知参数0β,1β, …,p β,为此我们要进行n 次独立观测,得到n 组样本数据);,,,(21i ip i i y x x x ,n i ,,2,1 =,他们满足式(1.1),即有⎪⎪⎩⎪⎪⎨⎧+++++=+++++=+++++=nnp p n n n p p p p x x x y x x x y x x x y εββββεββββεββββ 2211022222211021112211101 (1.3)其中n εεε,,,21 相互独立且都服从),0(2σN .式(1.3)又可表示成矩阵形式: εβ+=X Y (1.4)这里,T n y y y Y ),,,(21 =,T p ),,,(10ββββ =,T n ),,,(21εεεε =,),0(~2n n I N σε,n I 为n 阶单位矩阵.⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x xx x x X 212222111211111 )1(+⨯p n 阶矩阵X 称为资料矩阵或设计矩阵,并假设它是列满秩的,即1)(+=p X rank .由模型(1.3)以及多元正态分布的性质可知,Y 仍服从n 维正态分布,它的期望向量为βX ,方差和协方差阵为n I 2σ,即),(~2n n I X N Y σβ. 3.3参数的最小二乘估计及其表示1. 参数的最小二乘估计与一元线性回归时的一样,多元线性回归方程中的未知参数p βββ,,,10 仍然可用最小二乘法来估计,即我们选择T p ),,,(10ββββ =使误差平方和∑∑==-----=--===ni ip p i i i T T n i i x x x y X Y X Y Q 122211012)()()(ˆ)(ββββββεεεβ达到最小.由于)(βQ 是关于p βββ,,,10 的非负二次函数,因而必定存在最小值,利用微积分的极值求法,得⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎨⎧=------=∂∂=------=∂∂=------=∂∂=------=∂∂∑∑∑∑====n i ipip p i i i p n i ik ip p i i i k n i i ip p i i i n i ipp i i i x x x x y Q x x x x y Q x x x x y Q x x x y Q 1221101221101122110112211000)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(ββββββββββββββββββββββββ 这里),,1,0(ˆp i i =β是),,1,0(p i i =β的最小二乘估计.上述对)(βQ 求偏导,求得正规方程组的过程可用矩阵代数运算进行,得到正规方程组的矩阵表示:0)ˆ(=-βX Y X T 移项得 ﻩY X X X T T =βˆ (1.5) 称此方程组为正规方程组.ﻩ依据假定1)(+=p X R ,所以1)()(+==p X R X X R T .故1)(-X X T 存在.解正规方程组(1.5)得Y X X X T T 1)(ˆ-=β(1.6) 称p p x x x y ββββˆˆˆˆˆ22110++++= 为经验回归方程. ﻩ2.误差方差2σ的估计ﻩ将自变量的各组观测值代入回归方程,可得因变量的估计量(拟合值)为βˆ)ˆ,,ˆ,ˆ(ˆ221X y y y Yp ==向量Y H I Y X X X X I X Y Y Y e nT T n )(])([ˆˆ1-=-=-=-=-β 称为残差向量,其中T T X X X X H 1)(-=为n 阶对称幂等矩阵,n I 为n 阶单位阵.称数Y X Y Y Y H I Y e e T T T n T T βˆ)(-=-= 为残差平方和(Error Su m o f Square s,简写为SSE ).ﻩ由于βX Y E =)(且0)(=-X H I n ,则)]()[(]})([{)(T n n T T E H I tr H I tr E e e E εεεε-=-=ﻩ])([12T T n X X X X I tr --=σﻩﻩ ﻩﻩ ]})[({12X X X X tr n T T --=σﻩﻩﻩ )1(2--=p n σ从而e e p n T 11ˆ2--=σ为2σ的一个无偏估计.3.4 逐步回归当自变量的个数不多时,利用某种准则,从所有可能的回归模型中寻找最优回归方程是可行的.但若自变量的数目较多时,求出所有的回归方程式很不容易的.为此,人们提出了一些较为简便实用的快速选择最优方程的方法,我们先根据“前进法”和“后退法”的思想,再详细介绍“逐步回归法”。

1.前进法和后退法前进法:设所考虑的回归问题中,对因变量y 有影响的自变共有m 个,首先将这m 个自变量分别与y 建立m 个一元线性回归方程,并分别计算出这m 个一元回归方程的偏F 检验值,记为(1)(1)(1)12{,,,}m F F F ,若其中偏F 值最大者(为方便叙述起见,不妨设为(1)1F )所对应的一元线性回归方程都不能通过显著性检验,则可以认为这些自变量不能与y 建立线性回归方程;若该一元方程通过了显著性检验,则首先将变量1x 引入回归方程;接下来由y 与1x 以及其他自变量(1)j x j ≠建立1m -个二元线性回归方程对这1m -个二元回归方程中的23,,,m x x x 的回归系数做偏F 检验,检验值记为(2)(2)(2)23{,,,}m F F F ,若其中最大者(不妨设为(2)2F )通过了显著性检验,则又将变量2x 引入回归方程,依此方法继续下去,直到所有未被引入方程的自变量的偏F 值都小于显著性检验的临界值,即再也没有自变量能够引入 回归方程为止.得到的回归方程就是最终确定的方程.后退法:首先用m 个自变量与y 建立一个回归方程,然后在这个方程中剔除一个最不重要的自变量,接着又利用剩下的1m -个自变量与y 建立线性回归方程,再剔除一个最不重要的自变量,依次进行下去,直到没有自变量能够剔除为止.前进法和后退法都有其不足,人们为了吸收这两种方法的优点,克服它们的不足,提出了逐步回归法. 2. 逐步回归法逐步回归法的基本思想是有进有出,具体做法是将变量一个一个得引入,引入变量的条件是通过了偏F 统计量的检验.同时,每引入一个新的变量后,对已入选方程的老变量进行检验,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新变量,又不能剔除老变量为止.设模型中已有1l -个自变量,记这1l -个自变量的集合为A ,当不在A 中的一个自变量k x 加入到这个模型中时,偏F 统计量的一般形式为()()(,)(,)1(,)k k k k SSR x A SSE A SSE A x F SSE A x n l MSE A x -==-- (2.1) 如下逐步回归法的具体步骤:首先,根据一定显著水平,给出偏 统计量的两个临界值,一个用作选取自变量,记为E F ;另一个用作剔除自变量,记为D F .一般地,取E D F F >,然后按下列步骤进行. ﻩ第一步:对每个自变量(1)i x i m ≤≤,拟合m 个一元线性回归模型0i i y x ββε=++ (2.2)这时,相当于统计量(2.1)中集合A 为空集,因此,()SSE A SST =,故()()i i SSR x A SSR x =,(,)()i i MSE A x MSE x =,对每一个i ,计算(1)(),1,2,,MSE()i i i SSR x F i m x == (2.3)设11(1)(1)1max{}i i i mF F ≤≤=若1(1)i E F F >,则选择含自变量1i x 的回归模型为当前模型,否则,没有自变量能进入模型,选择过程结束,即认为所有自变量对 的影响均不显著.ﻩ第二步:在第一步的选出模型的基础上,再将其余的1m -个自变量分别加入到此模型中个,得到1m -个二元回归方程,计算11(2)1(),MSE(,)i i i i i SSR x x F i i x x =≠(2.4)设21(2)(2)max{}i i i i F F ≠=ﻩ若2(2)i E F F >,则选取过程结束.第一步选择的模型为最优模型.若2(2)i E F F >,则将自变量2i x 选入模型中,即得第二步的模型11220i i i i y x x βββε=+++(2.5)ﻩ进一步考察,当2i x 进入模型后,1i x 对y 的影响是否仍然显著.为此计算12112(2)()MSE(,)i i i i i SSR x x F x x =(2.6)ﻩ若2(2)i D F F ≤ ,则剔除1i x .这时仅含有2i x 的回归模型为当前模型.ﻩ第三步:在第二步所选模型的基础上,在将余下的2m -个自变量逐个加入,拟合各个模型并计算F 统计量值,与E F 比较决定是否有新变量引入,如果有新变量进入模型,还需要检验原模型中的老变量是否因这个新变量的进入而不再显著,那样就应该被剔除.重复以上步骤,直到没有新的自变量能进入模型,同时在模型之中的老变量都不能剔除,则结束选择过程,最后一个模型即为所求的最优回归模型。

相关主题