当前位置：文档之家› 回归分析原理

回归分析原理

2
T
2
XI
2
ˆ = ～t（n-k） ˆ
这里的 n 是样本的个数，k 是模型中变量的个数，n-k 是自由度。

在“假设检验”的实际应用中，一个十分重要的问题是如何确定总体意义上的，的值。我们知道“总体”概念说到底只是一个设想，一个信念而已，我们不可能知道，的具体值，但我们又要依据，具体值才能判断或检验，是否是可接受的或误差不大。我们只能用假设、或者具体地说是用理论假说的数量结论来替代，的具体值，也就是“假设检验”方法中作出“零假设”的主要依据；这样我们就可看到，所谓“假设检验”中原来 ˆ ，与，之间差异的想法或思路，希望检验 ˆ 已经转变为检验，是否与理论假说或其他主观判断和经验相符。
6· 3、一元线性回归模型的参数估计必须理解和认识总体回归模型和样本回归模型的区别和关系，假设总体真正的回归直线是 E (Yi ) xi 它是由总体回归模型
Yi xi i
显然，上面的模型是想象的、理论上的，实际上是找不到的，它们实际上就是所谓客观规律。
而样本的回归直线为
的影响是随机的，非确定性的。那么， i究竟包含了什么意义或内容呢？概括地说来主要有：（1）模型中被忽视了的影响因素；（2）变量的测量误差，这种误差主要来自统计数据本身的误差；
i是一随机项或误差项，它的存在表明 X 对 Y
i
i
（3）随机误差。社会经济现象中涉及到人的主观因素和行为，还有历史的、文化的等因素，这些因素一般来说是难以量化的、多变的；（4）模型的数量关系误差。即数学形式所带来的误差。一般来说，所有的经济数学模型的误差也就是这4个方面，或者说是存在的主要问题，对此我们必须要有清醒和深入的认识。
概率论和数理统计的基本思想和目的，就是希望通过样本所反映出来的信息来揭示总体的规律性，这种想法或思路显然存在重大的问题。但另一方面，我们也必须承认，为了寻找总体的规律或客观规律，只能通过样本来进行，因为我们只可能得到样本。在真正回归意义上建立其有效方法时，必须作出相应的假设条件。
x y x (Y Y ) x Y Y x x x x xY x ˆ 其中 w wY x x 1 k Y 同理可证：ˆ = 其中 k w X n
ˆ 证明：
i i i i i i 2 i 2 2 i i i i 2 i

设： y i Yi Y
ˆ Y ,x X X ˆi Y y i i i
ˆy y ˆi 所以 ei Yi Y i
而（1） Yi X i i , Y X
y i xi ( i )
ˆX ˆ Y 又（2）
2 ˆ 证明是最小方差估计，这是十分遗憾的。
2、最小二乘估计值 ˆ 的显著性检验 ˆ ， ˆ 与， ˆ，显著性检验实际上是检验之间的差距和可靠性。具体的检验方法就是 “假设检验”的方法。一般假设检验中用来进行检验的统计量（实际上就是一种随机变量）主要有二个，即Z统计量和T统计量。（1）应用Z统计量的条件是：已知 2 2 而无论样本的大小，或者未知但样本足够的大（n至少大于30）。
3、总体参数，置信区间的估计 ˆ 是怎样接近真实总体的参为了确定 ˆ，数，，我们期望构造一个区间来具体加 ˆ 的 ˆ，以说明，亦即建立一个围绕估计值在一一定限制范围，来推断总体参数，定置信度下落在此区间。所谓置信（或称置信水平）度实际上与显著性水平的意义类似，只是数量的大小相反而已。
到此样本回归模型的参数就估计出来了。 ˆ 都是对于这个结果需要注意的是，这里的 ˆ ，的函数，而是随机变量，因此，从理论上说，随机变量，而不是一个或几个固定的值，是一个概率分布。
6．4、估计值的性质

（1）估计值的线性性质 ˆ 是观测值 ˆ ，所谓线性性是指估计值的线性函数。

我们最终得到
E ( e 2 i ) 2 ( n 1) 2 2 2 (n 2) 2
ˆ 如果我们定义
2
e
2 i 2 2 ˆ ，那么就是的
n2
无偏估计，亦即有
ˆ E (
2
e ) E(
2 i
n2
) 2 。但是我们还不能
ˆX ˆ ˆ Y i 代入 i
ˆ(X X ) ˆ Y 则有 Y i i ˆx ˆ y i
由此我们就有
ˆ ) x ( ) ˆ y ( ei y i i i i
因此，进一步则有
2 2 ˆ ˆ ) x ( ) e ( ) x ( ) 2 ( i i i i i 2
i i
因此，其残差则为
ˆX ˆ Y ˆ ei Yi Y i I i
所以，其残差平方和为
ˆX ) 2 ˆ Q ei (Yi i
2
根据前面的结果，我们有
x y ˆ x
i i
i
其中 xi X i X , yi Yi Y
ˆX ˆ Y
上面这个假设是核心假设，它实际上表明 E (Yi ) 与 X i 之间是确定性的关系。（3）假设随机变量 Yi 是完全独立的，亦即
Cov(Yi , Y j ) Cov(ui , u j ) 0, i j。
6· 2、随机项或误差项的含义
一元线性回归模型的一般形式为 Yi xi i
第六章
回归分析原理
6· 1、一元线性回归数学模型
这里所讨论的一元线性回归数学模型，是数学模型的最简单形式。当然要注意的是，这里模型讨论是在真正回归意义上来进行的，也可称之为概率意义上的线性模型。在非确定性意义上，或概率意义上讨论问题，首先要注意一个最基本的概念或思路问题，这就是总体和样本的概念。

基本假设条件：（1）假设概率函数P(Yi | X i )或随机变量 Yi 的分布对于 X i 所有值，具有相同的方差 2 ，且 2 是一个常数，亦即 Var (Yi ) = Var ( i ) = 2 。

（2）假设Yi 的期望值 E (Yi ) 位于同一条直线上，即其回归直线为 E (Yi ) = X i 等价于 E (i ) 0

ˆ ～ N ( , 已知
n xi
2
Xi
2 2 ) 2
2 ˆ ～ N ( , ) 2 xi
则我们有 Z
ˆ

X
2 i
～N（0 ，1）
2
n xi
z
ˆ

2
～ N（0 ，1）
2
XI
2 2 ˆ 当然如果未知，但样本数大于 30，则在上式中用替代即可。
ˆ ～ N ( ,
n xi
Xi
2 2
)
2
ˆ ～ N ( ,
2 2 i
x
)
不可在上面的分布函数中，除了 2，能知道外，我们必须解决未知数估计值，才可能继续进行显著性检验。
1、建立随机变量方差 2的估计值采用一定的办法是可以解决 2 估计值的，下面给出其推理过程，并证明其估计值 2是一个无偏估计。 ˆ
通过计算可知
w 0, w X
i i
i
1
ˆ ) E( w ) E( i i E ( wi ) E ( i ) ，
其中 E ( i ) 0, (i 1,2,3. , n ) 所以有同理可证
ˆ) E(
ˆ) E (
2 未知，且样本小于 30 时。 2）应用 T 统计量的条件：当方差
ˆ ～ N ( , 已知
n xi
Xi
2 2 ) 2
2 ˆ ～ N ( , ) 2 xi
则我们有 Tˆ
ˆ
2 Xi2
ˆ
n xi
ˆ = ～ t（n-k） ˆ
ˆ t ˆ t ˆ ˆ ˆ ) 0 95 p ( ˆ 0 025 0025 即
所以，置信度是 95%的置信区间为
ˆ t ˆ t ˆ ˆ, ˆ ˆ) ( 0025 0025

ˆ 问题的分析 6· 6、预测值 Y 0
ˆ 具有最小方差性）（3）有效性（或称 ˆ ，。 ˆ 在所有线性所谓有效性主要是指最小二乘估计 ˆ ，
无偏估计中，其方差是最小的。证明的基本思路是： ~ ~ ˆ) ˆ ) ， Var ( )Var ( Var ( )Var ( 证明（略）。上面三个性质是最小二乘估计的主要性质，理论上说已达到最好的结果了。因此，满足这三条的估计也称作最优线性无偏估计。
根据最小二乘法我们从样本模型
ˆ 的显著性检验 ˆ ， 6· 5、最小二乘估计与置信区间
所谓显著性检验实际上就是对检验估计值与总体参数值差别大小的方法。也就是数理统计中的“假设检验”的方法一种实际应用。这里再一次指出，参数估计之所以要进 ˆ ，是随机变量。行检验，是因为这里的 ˆ ˆ是的线 ˆ，假设 Yi 服从正态分布，又因 Y 性函数，所以，也是服从正态分布的。只要 i ˆ 的方差，我们就可得到计算出 ˆ ，
i
i
而 xi 0i ii2来自ii ii
i
ˆ 是 Y 线性函数所以，ˆ ， i
（2）估计值的无偏性。 ˆ ˆ 所谓无偏性是指估计值，的期望值等于总体回归模型参数，的值。亦即 ˆ) ˆ ) ， E( E ( 。证明：

e商务文档

回归分析原理

相关文档推荐：