当前位置:文档之家› 多元回归分析估计问题

多元回归分析估计问题


第三节 多元判定系数R2与复相关系数R
在双变量的情形中我们曾看到, r2 是回归方程拟合优度的一个度量。 它给出在因变量Y的总变异种由(单一个)解释变量X解释了的比例或 百分比。 在三变量模型中,由X2 和X3 联合解释Y的变异的比例的数量称为复判 定系数(multiple coefficient of determination),记为R2 。(总平方和 TSS等于解释平方和ESS+残差平方和RSS),则
2020/4/5
2020/4/5
3. OLS估计量的性质
多元回归模型的OLS估计量和双变量模型的OLS有着平行的性质。
(1)三变量回归线(面)通过均值
这个性质可以推广到一
般情形,在k变量线性回归模型(一个回归子和(k-1)个回归元)中:
我们有:
(2)估计的Yi的均值等于真实Yi的均值。 两边对所有样本值求和并 除以样本大小n,由于
三、对多元回归方程的解释
给定经典回归模型的诸假定,那么,在(7.1.1)的两边对Y求条 件期望得:
(7.2.1)
该式给出以变量X2 和X3 的固定值的条件的Y的条件均值或期望值。
因此,如同双变量情形那样,多元回归分析是以多个解释变量的 固定值为条件的回归分析,并且我们所获取的,是给定回归元值 时Y的平均值或Y的平均响应。
第七章 多元回归分析:估计问题
◆对多元回归方程的解释 ◆偏回归系数的含义与估计 ◆多元判定系数R2与复相关系数R ◆从多元回归的角度看简单回归 ◆R2及校正R2 ◆多项式回归模型
第一节 对多元回归方程的解释
一、三变量模型:符号与假定
将双变量的总体回归模型推广,便可写出三变量PRF为: (7.1.1)
二、偏回归系数的OLS估计 1. OLS估计量
与(7.1.1)的 PRF相对应的样本回归函数如下: OLS方法 是要选择未知参数的值,使残差平方和RSS尽可能小,即:
将该式对三个未知数求偏导数,并令其为零,解得:
由上述正规方程组可以得到β1、β2 和β3 的OLS估计量: 小写字母表示对样本均值离差的惯例。
如果仅当
时成立,则说X2 和X3 线性独立。
无多重共线性
假设(7.1.1)中的Y、 X2 和X3 分别代表消费支出、收入 和财富,经济理论设想收入和财富对消费各有独立影响。 若收入和财富之间有线性关系,则无从区分各自的影响了。

,则(7.1.1)变成:
给出的是X2 和X3 对Y的联合影响。没有办法
分别估计X2 的单独影响和X3 的单独影响。
二、多元线性回归模型的基本假设
(1)ui 有零均值,或: (2)无序列相关,或: (3)同方差性,或:
(7.1.2) (7.1.3) (7.1.4)
(4)ui与每一X变量之间都有零协方差,或:
(5)无设定偏误,或:模型被正确地设定 (6)X诸变量间无精确的共线性,或:
X2 和X3 之间无精确的线性关系
建立模型为:
(7.6.1)
Dependent Variable: CM
Method: Least Squares
Date: 02/18/12 Time: 14:22
Sample: 1 64
Included observations: 64
Variable
Coefficient
C
263.6416
PGNP
即得:
(3) 由于 (4)残差 与
,两边对样本值求和可得。 和 都不相关,即
(5)残差 与 不相关,即

两边同时乘以 ,然后对样本值求和。
(6)在7.1节的经典线性模型的假定下,可以证明偏回归系数的OLS估计量 不仅是线性和无偏的,而且在所有线性无偏估计量类中有最小方差。简言 之,它们是BLUE。或它们满足高斯-马尔可夫定理。
-0.00565
FLR
-2.23159
R-squared
0.707665
Adjusted R-squared
0.698081
S.E. of regression
41.7478
Sum squared resid
106315.6
(7.1.5) (7.1.6)
(7.1.7)
假设(7.1.6)中 X2 和X3之间无精确的线性关系,称为无共线性 (no collinearity)或无多重共线性(no multicollinearity)。
无共线性 不存在一关系式存在,则说X2 和X3 是共线的或线性相关。
第二节 偏回归系数的含义与估计
一、偏回归系数的含义
前面指出,系数β2 和β3 称为偏回归(partial regression)系数。 其含义如下: β2 度量着在X3 保持不变的情况下,X2 每变化一 单位,Y的均值E(Y| X2 ,X3 )的变化。 换句话说, β2 给出保持X3 不变时E(Y| X2 ,X3 )对X2 的斜率。
R2 越靠近1,模型的“拟合”越好。
例7.1 儿童死亡率与人均GNP和妇女识字率的关系
Table 6.4 64个国家的生育率及其他数据 CM = child mortality(儿童死亡率)
CM为每1000名产婴中不足5岁便死亡的人数 FLR = female literacy rate(妇女识字率) PGNP = per capita GNP in 1980(1980年的人均GNP) TFR = total fertility rate(总生育率)
其中Y是因变量,X2 和X3 是解释变量,u 是随机干扰项,而 i 指第i次 观测。当数据为时间序列时,下标t将用来指第i次观测。
在上述方程中β1 是截距项,它代表X2 和X3 均为零时Y的均值,如通 常所说,它给出了所有未包含到模型中来的变量对Y的平均影响。系 数β2 和β3 称为偏回归系数(partial regression coefficients)。
2.OLS估计量的方差和标准误
我们计算标准误有两个目的:建立置信区间和检验统计假设。
在上述公式中σ2 是总体干扰项 ui的方差。
可以证实, σ2 的一个无偏估计量是:
现在的自由度是(n-3),这是因为在估计 之前,我们必须先 估计β1 ,β2 和β3 ,从而消耗了3个自由度。 一旦算出残差ui ,就能从该式算出估计量σ2 。
相关主题