当前位置：文档之家› 回归分析(3)多元逐步回归

回归分析(3)多元逐步回归

= Q( x1 , x2 ,L , xl ) − Q( x1 , x 2 ,L , x l , xi )
V ( x , x ,L , x ) = U ( x , x ,L , x , x ) − U ( x , x ,L , x ) 令于是称 V ( x , x ,L, x ) 为自变量 xi 对因变量 y 的方差贡献。也就是，越大，差贡献。也就是，如果 Vi ( x1 , x2 ,L, xl ) 越大，则 x i 对 y 的影响就越大，x i 对回归方程就越显重要，的影响就越大，对回归方程就越显重要， V ( x , x ,L , x ) 应该引入。应大到什么程度，应该引入。但是应大到什么程度，自 xi 才可被引入方程呢？变量才可被引入方程呢？这就需要给出的引入标准（或称引入门坎值）。的引入标准（或称引入门坎值）。
i
S总 = U ( x1 , x 2 , L , x l , x i ) + Q ( x1 , x 2 , L , x l x i ) （2.15）
现在用式（），并注意到现在用式（2.15）减去式（2.14），并注意到）减去式（），式（2.14）与式（2.15）总离差平方和不变，）与式（）总离差平方和不变，可得 U ( x1 , x2 , L , xl , x i ) − U ( x1 , x 2 ,L , x l )
1．输入模型原始数据
x11 x 21 X= M x n1 x12 L x1m y1 y2 M yn
x 22 L x2 m M L M x n 2 L x nm
m 其中，为样品个数，为自变量个数。其中， n 为样品个数，为自变量个数。
2．作如下预处理变换．（1）求各变量均值 x ）（2）求）
是否可以引入方程。式中，可以检验自变量 xi 是否可以引入方程。式中， n 是样本容量，l 是已进入方程的自变量个数。是样本容量，是已进入方程的自变量个数。分布表，对于给定水平，查 F 分布表，可得临界可引入方程；值 Fα = F进。如果 F1i > F进，则表明 x i 可引入方程；
§2.6.1 数据准备回归分析的原始数据包括两部分，回归分析的原始数据包括两部分，一部分是自的观测值。变量 x1 , x2 ,L , xm 及因变量 y 的观测值。我们称为模型数据值。另一部分是只有自变量的观测值，模型数据值。另一部分是只有自变量的观测值，的取值未知，称预测数据部分。因变量 y 的取值未知，称预测数据部分。模型数据用来求回归方程的参数，模型数据用来求回归方程的参数，在模型显著的预测计算。时，再用以对预测部分作 y 的预测计算。
Vi
Vi ( x1 , x 2 , L , x l ) / 1 F2 i = ~ F (1, n − l − 1) Q( x1 ,L , x l ) /( n − l − 1)
i = 1,2,L, l
可被考虑剔除出方程。来检验方程中哪个自变量可被考虑剔除出方程。
对于给定的水平α ，查分布表得临界值 Fα (1, n − l − 1) = F出。应从方程中剔除；如果F2 i ≤ F出，则 xi 应从方程中剔除；不应从方程中剔除。如果 F2 i > F出，则 xi 不应从方程中剔除。同样需要说明的是，同样需要说明的是，实际问题可能有多个 F2 i ≤ F出，由于每次只能从方程中剔除一个变因此在算法上，量，因此在算法上，我们选最小的 F2 i 值所对应的变量考虑剔除，的变量考虑剔除，即先求
i 1 2 l 1 2 l i 1 2 l
i 1 2 l
i
1
2
l
统计理论表明，统计理论表明，用统计量
F1i = Vi ( x1 , x2 ,L , xl ) / 1 ~ F (1, n − l − 2) Q( x1 , x 2 ,L , xl , x i ) /( n − l − 2)
i = l + 1, l + 2,L, m
§ 2.5
多元逐步回归算法原理
多元回归模型首先将实际问题所提取的全部变量引入方程，入方程，然后再根据变量的显著性检验把方程中不重要的变量逐一剔除，建立新方程。要的变量逐一剔除，建立新方程。
缺点：（）首先在实际问题中，要提取合缺点：（1）首先在实际问题中，：（适的变量来建立回归方程本身不是一件很容易的事情，的事情，变量间可能存在高度的相互依赖性会给回归系数的估计带来不合理的解释；给回归系数的估计带来不合理的解释；（2）其次变量的一次性引入方程，易导致计）其次变量的一次性引入方程，算量增大，运算效率降低，精度不够等问题。算量增大，运算效率降低，精度不够等问题。
§ 2.5
多元逐步回归算法原理
为了得到一个稳健的、为了得到一个稳健的、可靠的回归模这就需要给出一种方法，型，这就需要给出一种方法，使得能从影响 y 的因素中自动根据某种准则将 y 对贡献大的变量 x（或者说对 y 重要的变 i 量 x ）引入方程，不重要的变量从方程 i 引入方程，中剔除。中剔除。最终在观测数据基础上建立最优的回归方程。优的回归方程。
§2.5.1 逐步回归算法的形成思路引入方程后，如 x1 , x 2引入方程后，再引入 x5 ，也许由 x5 的引的重要性反而变得不重要，应及时剔除。入而 x1的重要性反而变得不重要，应及时剔除。假设已有 l 个自变量引入回归方程，即已知回个自变量引入回归方程，归方程是：归方程是： ˆ y = b0 + b1 x1 + b2 x 2 + L + bl x l 此时该方程相应的总离差平方和记为
为由式（为由式（2.16）与式（2.17）可得）与式（）
Vi ( x1 , x 2 ,L , x l ) = U ( x1 ,L , x l ) − U ( x1 , L x i −1 , x i +1 , L , x l )
这里仍然称

Vi
的方差贡献。为 xi 对 y 的方差贡献。
xi 的影响越大，越重要，越大说明 xi对 y 的影响越大，即 xi 对 y 越重要，在方程中就不能被剔除，反之亦然。当然 xi 在方程中就不能被剔除，反之亦然。然而 Vi应小到什么程度，自变量 x i 才考虑从方程中被剔应小到什么程度，除呢？的剔除标准（除呢？这就需要给出 xi 的剔除标准（或称剔除门坎值）。和前面所介绍的引入标准一样，）。和前面所介绍的引入标准一样坎值）。和前面所介绍的引入标准一样，可用统计量
k(i) 进
max F1i 记 → Fk ( i )
(l < i ≤ m )
比较，然后将它与 F进比较，如 F1i > F进，相应的自变量 x k ( i ) 入选；如 F1i ≤ F进，引入变量的步骤就到此为入选；止。
§2.5.3 剔除自变量的依据个自变量引入回归方程，设已有 l 个自变量引入回归方程，即已知回归方程为
lj =
j
1 n = ∑ x ij n i =1
( j = 1,2, L , m + 1)
∑(x
i =1
n
ij
− x j )2
( j = 1,2, L , m + 1)
(3）作变换）
x ij * =
x ij − x j lj
( j = 1,2, L , n; j = 1,2, L , m + 1)
该变换使变换后的数据各变量均值为0，该变换使变换后的数据各变量均值为，离差平方和为l。平方和为。
ˆ y = b0 + b1 x1 + b2 x2 + L + bt x t
此时该方程的总离差平方和可表示为
S总 = S回 + S 剩 = U ( x1 , x 2 , L , x l ) + Q ( x1 , x 2 , L , x l )
（2.16））
现在已有的 l 个自变量中剔除一个自变量，不妨个自变量中剔除一个自变量，剔除xi , i = 1,2,L , l ，于是可得剔除自变量 x i 后的回归方程，回归方程，记为
min F2 i = Fk ( i )
1≤ i ≤ l
记
然后将与 F出比较，如 F ≤ F 时，就应从回归比较，方程中剔除变量 xk ( i ) ；如 F > F ，则方程中没有变量被剔除，转入是否可以引入新变量的讨论。有变量被剔除，转入是否可以引入新变量的讨论。
k(i) 出
k(i)
出
§ 2.6
x 不重要，如果 F ≤ F ，则说明自变量x i 不重要， i 不能引入方程。需要说明的是，入方程。需要说明的是，实际问题可能 Fk ( i ) > F进有多个，由于每次只能引入一个变量进入方程，多个，由于每次只能引入一个变量进入方程，因此在算法上，此在算法上，我们是选最大的 F1i 值所对应的变量考虑引入，考虑引入，即，先求
§2.5.1 逐步回归算法的形成思路逐步回归算法基本思路根据各自变量的重要性，根据各自变量的重要性，每一步选一个重要的变量进入回归方程。的变量进入回归方程。
第一步是在所有可供挑选的变量中选出一个变量，第一步是在所有可供挑选的变量中选出一个变量，使它组成的一元回归方程比其他变量有更大的回归平方 l 和。第二步是在剩下的自变量中选这样一个变量，它与第二步是在剩下的自变量中选这样一个变量，已选入方程的那个变量所组成的二元回归方程，已选入方程的那个变量所组成的二元回归方程，比其他任一变量与已先选入方程的变量所组成的二元回归方程，任一变量与已先选入方程的变量所组成的二元回归方程，
ˆ ′ ′ y = b0 + b1 x1 + L + bi′−1 x i −1 + bi′+1 x i +1 + L + bl′ x l

e商务文档

回归分析(3)多元逐步回归

相关文档推荐：