当前位置:文档之家› 回归分析概要(多元线性回归模型)

回归分析概要(多元线性回归模型)

第二章 回归分析概要
第五节 多元线性回归分析
一 模型的建立与假定条件
在一元线性回归模型中,我们只讨论了包含一个解释变量的一元线性回归模型,也就是假定被解释变量只受一个因素的影响。

但是在现实生活中,一个被解释变量往往受到多个因素的影响。

例如,商品的消费需求,不但受商品本身的价格影响,还受到消费者的偏好、收入水平、替代品价格、互补品价格、对商品价格的预测以及消费者的数量等诸多因素的影响。

在分析这些问题的时候,仅利用一元线性回归模型已经不能够反映各变量间的真实关系,因此,需要借助多元线性回归模型来进行量化分析。

1. 多元线性回归模型的基本概念
如果一个被解释变量(因变量)t y 有k 个解释变量(自变量)tj x ,k j ,...,3,2,1=, 同时,t y 不仅是tk x 的线性函数,而且是参数0β和k i i ,...3,2,1=,β(通常未知)的线性函数,随即误差项为t u ,那么多元线性回归模型可以表示为:
,...22110t tk k t t t u x x x y +++++=ββββ ),..,2,1(n t =
这里tk k t t t x x x y E ββββ++++=...)(22110为总体多元线性回归方程,简称总体回归方程。

其中,k 表示解释变量个数,0β称为截距项,k βββ...21是总体回归系数。

k i i ,...3,2,1=,β表示在其他自变量保持不变的情况下,自变量tj X 变动一个单位所引起的因变量Y 平均变动的数量,因而也称之为偏回归系数。

当给定一个样本n t x x x y tk t t t ,...2,1),,...,,(21=时,上述模型可以表示为:
⎪⎪⎪⎭
⎪⎪⎪
⎬⎫⎪⎪⎪⎩⎪⎪⎪⎨⎧+++++=+++++=+++++=+++++=t tk k t t t k k k k k k u x x x y u x x x y u x x x y u x x x y ββββββββββββββββ (22110333223110322222211021112211101)
此时,t y 与tj x 已知,i β与t u 未知。

其相应的矩阵表达式为:
)1(321)1(210)
(1333122211111)1(321............1......1......1......1...⨯⨯⨯⨯⎪⎪⎪⎭⎪⎪⎪⎬⎫⎪⎪⎪⎩⎪⎪⎪⎨⎧+⎪⎪⎪⎭⎪⎪⎪⎬⎫⎪⎪⎪⎩⎪⎪⎪⎨⎧⎪⎪⎪⎭⎪⎪⎪⎬⎫⎪⎪⎪⎩
⎪⎪⎪⎨⎧=⎪⎪⎪⎭⎪⎪⎪⎬⎫⎪⎪⎪⎩⎪⎪⎪⎨⎧T T k k k T Tk Tj T k j k j k j T T u u u u x x x x x x x x x x x x y y y y ββββ
可以简化为: u X Y +=β--总体回归模型的简化形式。

2. 假定条件
与一元线性回归模型的基本假定相似,为保证得到最优估计量,多元线性回归模型应满足以下假定条件:
假定1 随机误差项t u 满足均值为零,其方差2
σ相同且为有限值。

假定2 随机误差项之间相互独立,无自相关。

假定3 解释变量tj x ,k j ,...,3,2,1=之间线性无关,即解释变量的样本观测值矩阵式满秩矩阵,否则称解释变量之间存在多重共线性(与课本假定7合并)。

假定4 解释变量tj x ,k j ,...,3,2,1=是确定性变量,与误差项彼此之间相互独立。

假定5 解释变量是非随机变量,且当Q X X T T →'
∞→-1
时,,Q 是一个有限值的非奇异矩阵。

假定6 随机误差项服从正态分布。

假定7 回归模型是正确设计的。

二、最小二乘法
根据最小二乘法的原则,总体回归模型可以推导为样本回归模型,即: u X Y ˆˆ+=β
其中,)ˆ...ˆˆ(ˆ10k
ββββ=是β的估计值列向量,)ˆ(ˆβX Y u -=称为残差列向量。

因为,βˆˆX Y u
-=,所以,u ˆ也是Y 的线性组合。

关于多元线性回归模型中样本容量的问题:
(1)最小样本容量
在多元线性回归模型中,样本容量必须不少于模型中解释变量的数目(包括常数项),这就是最小样本容量,即:1+≥k n 。

(2)满足基本要求的样本容量
一般经验认为,当30≥n 或者至少)1(3+≥k n 时,才能说满足模型估计的基本要求。

三、多元可决系数与调整后的多元可决系数
类似于一元线性回归模型的情形,我们对估计的回归方程关于样本观测值的拟合优度进行检验,而检验的统计量是可决系数。

因是多元回归,样本可决系数2R 就称为多元可决系数。

对于多元线性回归模型的情形,一元线性回归模型的总离差平方和的分解公式依然成立,即:
TSS= ESS +RSS
其中,TSS 的自由度为n-1,n 表示样本容量,
ESS 的自由度为k ,k 表示自变量的个数,
RSS 的自由度为n-k-1。

TSS
RSS TSS ESS R -==12 我们在模型应用中发现,如果在模型中增加一个解释变量,2R 往往会增大。

这是因为残差平方和往往随着解释变量个数的增加而减少,至少不会增加。

这就给人一个错觉:要使模型拟合得好,只要增加解释变量就可以了。

但是,现实情况往往是,由增加解释变量个数引起的2R 的增大与拟合好坏无关,因此,在多元线性回归模型之间比较拟合优度,2R 就不是一个合适的指标,必须加以调整。

在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是将残差平方和与总离差平方和分别处以各自的自由度,以剔除变量个数对拟合优度的影响。

定义调整的多元可决系数 如下:
)1(1
11)1/()1/(122R k n n n TSS k n RSS R -----=----= 当模型中增加一个自变量,如果RSS/(n-k-1)变小,因而使2R 增大,便可认为这个自变
量对因变量有显著影响,应该放入模型中,否则,应予抛弃。

在样本容量一定的情况下,2
R 具有如下性质:
(1) 若;,122R R k ≤≥则
(2) 2R 可能出现负值。

如1.0,2,102===R k T 时,157.02-=R 。

显然,负的拟合优度没有任何意义,在此情况下,取02
=R 在实际中,2R 或2R 越大,模型拟合得就越好,但拟合优度不是评价模型优劣的唯一标准。

因此,我们不能仅根据2R 或2R 的大小来选择模型。

补充知识:赤池信息准则和施瓦茨信息准则
为了比较所含解释变量个数不同的多元线性回归模型的拟合优度,常用的标准还有赤池信息准则(Akaike Information Criterion ,AIC )和施瓦茨信息准则(Schwarz Criterion ,SC ),其定义分别为:
)()()1(2)(,,n In n
k n e e In SC n k n e e In AIC +=++= 这两个准则均要求仅当所增加的解释变量能够减少AIC 值或SC 值时才能在原模型中增加该解释变量。

显然,与调整的可决系数相仿,如果增加的解释变量没有解释能力,则对残
差平方和e ,e 的减小没有多大帮助,但增加了待估参数的个数,这时可能到时AIC 或SC 的
值增加。

四、统计检验
1. F 检验
为了从总体上检验模型中被解释变量与解释变量之间的线性关系是否显著成立,检验的原假设为:0...:210====k H βββ(k 表示方程中回归系数的个数,也可以称为自变量的个数)若成立,则模型中被解释变量与解释变量之间不存在显著的线性关系。

备择解释为:j H β:1不全为零。

若原假设成立,则检验统计量:
)
1/(/--=k n RSS k ESS F )1,(--k n k F 这是自由度为1,--k n k 的F 分布,对于预先给定的显著水平a ,可以从F 分布表中查出相应的自由度。

设检验水平为a ,则检验规则是:
若)1,(--≤k n k F F a ,接受原假设;
若)1,(--〉k n k F F a ,则接受备选假设。

F 与2
R 的关系: k k n R R F 1122--•-=, kF
k n n R +----=1112 由公式,可以看出,F 与2R 成正比,2
R 越大,F 值也越大。

即总体的F 检验越显著(F 值越大),2R 的值也越大,回归方程拟合得就越好,所以,F 检验可以看作是对拟合优度的
检验。

2.回归系数的显著性检验—t 检验
对于多元线性回归模型,总体回归方程线性关系的显著性,并不意味着每个解释变量对被解释变量的影响都是显著的。

因此,有必要通过检验把那些对被解释变量影响不显著的解释变量从模型中剔除,只保留对被解释变量影响显著的解释变量,以建立更为简单合理的多元线性回归模型。

如果一个解释变量tj x 对被解释变量的影响不显著,则对应于该解释变量的回归系数j β的值等于0。

因此,我们只要检验一个解释变量tj x 的回归系数j β的值是否为0就可以了。

检验原假设:k j H j ,...,2,1,0:0==β;
备择假设:0:1≠j H β 判别标准,若接受原假设),1(2--≤k n t t a ;若接受备择假设),1(2
--〉k n t t a 。

相关主题