当前位置:文档之家› 回归分析(3)多元逐步回归

回归分析(3)多元逐步回归


= Q( x1 , x2 ,L , xl ) − Q( x1 , x 2 ,L , x l , xi )
V ( x , x ,L , x ) = U ( x , x ,L , x , x ) − U ( x , x ,L , x ) 令 于是称 V ( x , x ,L, x ) 为自变量 xi 对因变量 y 的方 差贡献。也就是, 越大, 差贡献。也就是,如果 Vi ( x1 , x2 ,L, xl ) 越大,则 x i 对 y 的影响就越大,x i 对回归方程就越显重要, 的影响就越大, 对回归方程就越显重要, V ( x , x ,L , x ) 应该引入。 应大到什么程度, 应该引入。但是 应大到什么程度,自 xi 才可被引入方程呢? 变量 才可被引入方程呢?这就需要给出 的引入标准(或称引入门坎值)。 的引入标准(或称引入门坎值)。
i
S总 = U ( x1 , x 2 , L , x l , x i ) + Q ( x1 , x 2 , L , x l x i ) (2.15)
现在用式( ),并注意到 现在用式(2.15)减去式(2.14),并注意到 )减去式( ), 式(2.14)与式(2.15)总离差平方和不变, )与式( )总离差平方和不变, 可得 U ( x1 , x2 , L , xl , x i ) − U ( x1 , x 2 ,L , x l )
1.输入模型原始数据
x11 x 21 X= M x n1 x12 L x1m y1 y2 M yn
x 22 L x2 m M L M x n 2 L x nm
m 其中, 为样品个数, 为自变量个数。 其中, n 为样品个数, 为自变量个数。
2.作如下预处理变换 . (1) 求各变量均值 x ) (2) 求 )
是否可以引入方程。式中, 可以检验自变量 xi 是否可以引入方程。式中, n 是样本容量,l 是已进入方程的自变量个数。 是样本容量, 是已进入方程的自变量个数。 分布表, 对于给定水平 ,查 F 分布表,可得临界 可引入方程; 值 Fα = F进 。如果 F1i > F进 ,则表明 x i 可引入方程;
§2.6.1 数据准备 回归分析的原始数据包括两部分, 回归分析的原始数据包括两部分,一部分是自 的观测值。 变量 x1 , x2 ,L , xm 及因变量 y 的观测值。我们称为 模型数据值。另一部分是只有自变量的观测值, 模型数据值。另一部分是只有自变量的观测值, 的取值未知,称预测数据部分。 因变量 y 的取值未知,称预测数据部分。 模型数据用来求回归方程的参数, 模型数据用来求回归方程的参数,在模型显著 的预测计算。 时,再用以对预测部分作 y 的预测计算。
Vi
Vi ( x1 , x 2 , L , x l ) / 1 F2 i = ~ F (1, n − l − 1) Q( x1 ,L , x l ) /( n − l − 1)
i = 1,2,L, l
可被考虑剔除出方程。 来检验方程中哪个自变量 可被考虑剔除出方程。
对于给定的水平α ,查 分布表得临界 值 Fα (1, n − l − 1) = F出 。 应从方程中剔除; 如果F2 i ≤ F出 ,则 xi 应从方程中剔除; 不应从方程中剔除。 如果 F2 i > F出 ,则 xi 不应从方程中剔除。 同样需要说明的是, 同样需要说明的是,实际问题可能有多个 F2 i ≤ F出 ,由于每次只能从方程中剔除一个变 因此在算法上, 量,因此在算法上,我们选最小的 F2 i 值所对应 的变量考虑剔除, 的变量考虑剔除,即先求
i 1 2 l 1 2 l i 1 2 l
i 1 2 l
i
1
2
l
统计理论表明, 统计理论表明,用统计量
F1i = Vi ( x1 , x2 ,L , xl ) / 1 ~ F (1, n − l − 2) Q( x1 , x 2 ,L , xl , x i ) /( n − l − 2)
i = l + 1, l + 2,L, m
§ 2.5
多元逐步回归算法原理
多元回归模型首先将实际问题所提取的全部变量引 入方程, 入方程,然后再根据变量的显著性检验把方程中不重 要的变量逐一剔除,建立新方程。 要的变量逐一剔除,建立新方程。
缺点:( )首先在实际问题中,要提取合 缺点:(1)首先在实际问题中, :( 适的变量来建立回归方程本身不是一件很容易 的事情, 的事情,变量间可能存在高度的相互依赖性会 给回归系数的估计带来不合理的解释; 给回归系数的估计带来不合理的解释; (2)其次变量的一次性引入方程,易导致计 )其次变量的一次性引入方程, 算量增大,运算效率降低,精度不够等问题。 算量增大,运算效率降低,精度不够等问题。
§ 2.5
多元逐步回归算法原理
为了得到一个稳健的、 为了得到一个稳健的、可靠的回归模 这就需要给出一种方法, 型,这就需要给出一种方法,使得能从 影响 y 的因素中自动根据某种准则将 y 对 贡献大的变量 x(或者说对 y 重要的变 i 量 x )引入方程,不重要的变量从方程 i 引入方程, 中剔除。 中剔除。最终在观测数据基础上建立最 优的回归方程。 优的回归方程。
§2.5.1 逐步回归算法的形成思路 引入方程后, 如 x1 , x 2引入方程后,再引入 x5 ,也许由 x5 的引 的重要性反而变得不重要,应及时剔除。 入而 x1的重要性反而变得不重要,应及时剔除。 假设已有 l 个自变量引入回归方程,即已知回 个自变量引入回归方程, 归方程是: 归方程是: ˆ y = b0 + b1 x1 + b2 x 2 + L + bl x l 此时该方程相应的总离差平方和记为
为由式( 为由式(2.16)与式(2.17)可得 )与式( )
Vi ( x1 , x 2 ,L , x l ) = U ( x1 ,L , x l ) − U ( x1 , L x i −1 , x i +1 , L , x l )
这里仍然称

Vi
的方差贡献。 为 xi 对 y 的方差贡献。
xi 的影响越大, 越重要, 越大说明 xi对 y 的影响越大,即 xi 对 y 越重要, 在方程中就不能被剔除,反之亦然。 当然 xi 在方程中就不能被剔除,反之亦然。然而 Vi应小到什么程度,自变量 x i 才考虑从方程中被剔 应小到什么程度, 除呢? 的剔除标准( 除呢?这就需要给出 xi 的剔除标准(或称剔除门 坎值)。和前面所介绍的引入标准一样, )。和前面所介绍的引入标准一样 坎值)。和前面所介绍的引入标准一样,可用统 计量
k(i) 进
max F1i 记 → Fk ( i )
(l < i ≤ m )
比较, 然后将它与 F进 比较,如 F1i > F进 ,相应的自变量 x k ( i ) 入选;如 F1i ≤ F进 ,引入变量的步骤就到此为 入选; 止。
§2.5.3 剔除自变量的依据 个自变量引入回归方程, 设已有 l 个自变量引入回归方程,即已知回归方 程为
lj =
j
1 n = ∑ x ij n i =1
( j = 1,2, L , m + 1)
∑(x
i =1
n
ij
− x j )2
( j = 1,2, L , m + 1)
(3) 作变换 )
x ij * =
x ij − x j lj
( j = 1,2, L , n; j = 1,2, L , m + 1)
该变换使变换后的数据各变量均值为0, 该变换使变换后的数据各变量均值为 ,离差 平方和为l。 平方和为 。
ˆ y = b0 + b1 x1 + b2 x2 + L + bt x t
此时该方程的总离差平方和可表示为
S总 = S回 + S 剩 = U ( x1 , x 2 , L , x l ) + Q ( x1 , x 2 , L , x l )
(2.16) )
现在已有的 l 个自变量中剔除一个自变量,不妨 个自变量中剔除一个自变量, 剔除xi , i = 1,2,L , l ,于是可得剔除自变量 x i 后的 回归方程, 回归方程,记为
min F2 i = Fk ( i )
1≤ i ≤ l

然后将 与 F出比较,如 F ≤ F 时,就应从回归 比较, 方程中剔除变量 xk ( i ) ;如 F > F ,则方程中没 有变量被剔除,转入是否可以引入新变量的讨论。 有变量被剔除,转入是否可以引入新变量的讨论。
k(i) 出
k(i)

§ 2.6
x 不重要, 如果 F ≤ F ,则说明自变量x i 不重要, i 不能引 入方程。需要说明的是, 入方程。需要说明的是,实际问题可能 Fk ( i ) > F进 有 多个,由于每次只能引入一个变量进入方程, 多个,由于每次只能引入一个变量进入方程,因 此在算法上, 此在算法上,我们是选最大的 F1i 值所对应的变量 考虑引入, 考虑引入,即,先求
§2.5.1 逐步回归算法的形成思路 逐步回归算法基本思路 根据各自变量的重要性, 根据各自变量的重要性,每一步选一个重要 的变量进入回归方程。 的变量进入回归方程。
第一步是在所有可供挑选的变量中选出一个变量, 第一步是在所有可供挑选的变量中选出一个变量, 使它组成的一元回归方程比其他变量有更大的回归平方 l 和。第二步是在剩下的自变量中选这样一个变量,它与 第二步是在剩下的自变量中选这样一个变量, 已选入方程的那个变量所组成的二元回归方程, 已选入方程的那个变量所组成的二元回归方程,比其他 任一变量与已先选入方程的变量所组成的二元回归方程, 任一变量与已先选入方程的变量所组成的二元回归方程,
ˆ ′ ′ y = b0 + b1 x1 + L + bi′−1 x i −1 + bi′+1 x i +1 + L + bl′ x l
相关主题