当前位置:文档之家› 回归分析原理

回归分析原理

2
T
2
XI
2
ˆ = ~t(n-k) ˆ
这里的 n 是样本的个数,k 是模型中变量的个数,n-k 是自由度。



在“假设检验”的实际应用中,一个十分重要 的问题是如何确定总体意义上的 , 的值。我们 知道“总体”概念说到底只是一个设想,一个信念 而已,我们不可能知道 , 的具体值,但我们又 要依据,具体值才能判断或检验,是否是可接受的 或误差不大。 我们只能用假设、或者具体地说是用理论假 说的数量结论来替代 , 的具体值,也就是“假 设检验”方法中作出“零假设”的主要依据; 这样我们就可看到,所谓“假设检验”中原来 ˆ ,与 , 之间差异的想法或思路, 希望检验 ˆ 已经转变为检验,是否与理论假说或其他主观判断 和经验相符。
6· 3、一元线性回归模型的参数估计 必须理解和认识总体回归模型和样本回归 模型的区别和关系, 假设总体真正的回归直线是 E (Yi ) xi 它是由总体回归模型
Yi xi i
显然,上面的模型是想象的、理论上的, 实际上是找不到的,它们实际上就是所谓客 观规律。
而样本的回归直线为
的影响是随机的,非确定性的。 那么, i究竟包含了什么意义或内容呢?概括地 说来主要有 : (1) 模型中被忽视了的影响因素; (2)变量的测量误差,这种误差主要来自统计数 据本身的误差;
i是一随机项或误差项,它的存在表明 X 对 Y
i
i
(3) 随机误差。社会经济现象中涉及到人 的主观因素和行为,还有历史的、文化的等 因素,这些因素一般来说是难以量化的、多 变的; (4) 模型的数量关系误差。即数学形式所 带来的误差。 一般来说,所有的经济数学模型的误差 也就是这4个方面,或者说是存在的主要问 题,对此我们必须要有清醒和深入的认识。
概率论和数理统计的基本思想和目的, 就是希望通过样本所反映出来的信息来揭示 总体的规律性,这种想法或思路显然存在重 大的问题。但另一方面,我们也必须承认, 为了寻找总体的规律或客观规律,只能通过 样本来进行,因为我们只可能得到样本。 在真正回归意义上建立其有效方法时, 必须作出相应的假设条件。
x y x (Y Y ) x Y Y x x x x xY x ˆ 其中 w wY x x 1 k Y 同理可证:ˆ = 其中 k w X n
ˆ 证明:
i i i i i i 2 i 2 2 i i i i 2 i

设: y i Yi Y
ˆ Y ,x X X ˆi Y y i i i
ˆy y ˆi 所以 ei Yi Y i
而 (1) Yi X i i , Y X
y i xi ( i )
ˆX ˆ Y 又(2)
2 ˆ 证明 是最小方差估计,这是十分遗憾的。
2、 最小二乘估计值 ˆ 的显著性检验 ˆ , ˆ 与 , ˆ, 显著性检验实际上是检验 之间的差距和可靠性。具体的检验方法就是 “假设检验”的方法。 一般假设检验中用来进行检验的统计量 (实际上就是一种随机变量)主要有二个, 即Z统计量和T统计量。 (1)应用Z统计量的条件是: 已知 2 2 而无论样本的大小,或者未知 但样本足 够的大(n至少大于30)。
3、总体参数 , 置信区间的估计 ˆ 是怎样接近真实总体的参 为了确定 ˆ, 数 , ,我们期望构造一个区间来具体加 ˆ 的 ˆ, 以说明,亦即建立一个围绕估计值 在一 一定限制范围,来推断总体参数 , 定置信度下落在此区间。 所谓置信(或称置信水平)度实际上与 显著性水平的意义类似,只是数量的大小相 反而已。
到此样本回归模型的参数就估计出来了。 ˆ 都是 对于这个结果需要注意的是,这里的 ˆ , 的函数,而是随机变量,因此,从理论上说,随 机变量,而不是一个或几个固定的值,是一个概 率分布。
6.4、估计值的性质

(1) 估计值的线性性质 ˆ 是观测值 ˆ , 所谓线性性是指估计值 的线性函数。



我们最终得到
E ( e 2 i ) 2 ( n 1) 2 2 2 (n 2) 2
ˆ 如果我们定义
2
e
2 i 2 2 ˆ ,那么 就是 的
n2
无偏估计,亦即有
ˆ E (
2
e ) E(
2 i
n2
) 2 。 但是我们还不能
ˆX ˆ ˆ Y i 代入 i
ˆ(X X ) ˆ Y 则有 Y i i ˆx ˆ y i
由此我们就有
ˆ ) x ( ) ˆ y ( ei y i i i i
因此,进一步则有
2 2 ˆ ˆ ) x ( ) e ( ) x ( ) 2 ( i i i i i 2
i i
因此,其残差则为
ˆX ˆ Y ˆ ei Yi Y i I i
所以,其残差平方和为
ˆX ) 2 ˆ Q ei (Yi i
2
根据前面的结果,我们有
x y ˆ x
i i
i
其中 xi X i X , yi Yi Y
ˆX ˆ Y
上面这个假设是核心假设,它实际上表明 E (Yi ) 与 X i 之间是确定性的关系。 (3)假设随机变量 Yi 是完全独立的,亦即
Cov(Yi , Y j ) Cov(ui , u j ) 0, i j。
6· 2、随机项或误差项的含义
一元线性回归模型的一般形式为 Yi xi i
第 六 章
回 归 分 析 原 理
6· 1、一元线性回归数学模型
这里所讨论的一元线性回归数学模型, 是数学模型的最简单形式。当然要注意的 是,这里模型讨论是在真正回归意义上来 进行的,也可称之为概率意义上的线性模 型。 在非确定性意义上,或概率意义上讨 论问题,首先要注意一个最基本的概念或 思路问题,这就是总体和样本的概念。

基本假设条件: (1)假设概率函数P(Yi | X i )或随机变量 Yi 的分 布对于 X i 所有值,具有相同的方差 2 , 且 2 是一个常数,亦即 Var (Yi ) = Var ( i ) = 2 。

(2)假设Yi 的期望值 E (Yi ) 位于同一条直线上, 即其回归直线为 E (Yi ) = X i 等价于 E (i ) 0

ˆ ~ N ( , 已知
n xi
2
Xi
2 2 ) 2
2 ˆ ~ N ( , ) 2 xi
则我们有 Z
ˆ

X
2 i
~N(0 ,1)
2
n xi
z
ˆ

2
~ N(0 ,1)
2
XI
2 2 ˆ 当然如果未知 ,但样本数大于 30,则在上式中用 替代即可。
ˆ ~ N ( ,
n xi
Xi
2 2
)
2
ˆ ~ N ( ,
2 2 i
x
)
不可 在上面的分布函数中,除了 2, 能知道外,我们必须解决未知数 估计值, 才可能继续进行显著性检验。
1、 建立随机变量方差 2的估计值 采用一定的办法是可以解决 2 估计值的, 下面给出其推理过程,并证明其估计值 2是一个无偏估计。 ˆ
通过计算可知
w 0, w X
i i
i
1
ˆ ) E( w ) E( i i E ( wi ) E ( i ) ,
其中 E ( i ) 0, (i 1,2,3. , n ) 所以有 同理可证
ˆ) E(
ˆ) E (
2 未知,且样本小于 30 时。 2)应用 T 统计量的条件:当方差
ˆ ~ N ( , 已知
n xi
Xi
2 2 ) 2
2 ˆ ~ N ( , ) 2 xi
则我们有 Tˆ
ˆ
2 Xi2
ˆ
n xi
ˆ = ~ t(n-k) ˆ
ˆ t ˆ t ˆ ˆ ˆ ) 0 95 p ( ˆ 0 025 0025 即
所以, 置信度是 95%的置信区间为
ˆ t ˆ t ˆ ˆ, ˆ ˆ) ( 0025 0025

ˆ 问题的分析 6· 6、预测值 Y 0
ˆ 具有最小方差性) (3)有效性(或称 ˆ , 。 ˆ 在所有线性 所谓有效性主要是指最小二乘估计 ˆ ,
无偏估计中,其方差是最小的。 证明的基本思路是: ~ ~ ˆ) ˆ ) , Var ( )Var ( Var ( )Var ( 证明(略) 。 上面三个性质是最小二乘估计的主要性质,理论上说 已达到最好的结果了。因此,满足这三条的估计也称作最 优线性无偏估计。
根据最小二乘法我们从样本模型
ˆ 的显著性检验 ˆ , 6· 5、最小二乘估计 与置信区间
所谓显著性检验实际上就是对检验估计 值与总体参数值差别大小的方法。也就是数 理统计中的“假设检验”的方法一种实际应 用。这里再一次指出,参数估计之所以要进 ˆ , 是随机变量。 行检验,是因为这里的 ˆ ˆ是的线 ˆ, 假设 Yi 服从正态分布,又因 Y 性函数,所以, 也是服从正态分布的。只要 i ˆ 的方差,我们就可得到 计算出 ˆ ,
i
i
而 xi 0i ii2来自ii ii
i
ˆ 是 Y 线性函数 所以,ˆ , i
(2) 估计值的无偏性。 ˆ ˆ 所谓无偏性是指估计值 , 的期望值等 于总体回归模型参数 , 的值。亦即 ˆ) ˆ ) , E( E ( 。 证明:
相关主题