当前位置：文档之家› 定量研究方法论--多变量回归建模

定量研究方法论--多变量回归建模

23
24 所以，根据额外平方和，易学性在易用性的基础上没有显著地增加对信任的解释。
25 我们把这种结果归因于易学性和易用性之间的信息重复。这种模型的“危害”有哪
26 些呢？我们在以前已经提到过，这种模型：
27
28 *没有简洁性
29 *具有误导性。如果我们只看回归分析的结果，我们很可能得到一个错误的结论：
21 于 x 单独作用于 y 时显著地降低(c’)，但仍大于零（图？）。如果 x 的回归系数变
22 为零，这种情况叫做完全中介，如果只是显著降低，则为部分中介（partial
23 mediation）。显然，部分中介的情况更为普遍（Baron & Kenny, 1986; Frazier et al.,
t
Sig.
B Std. Error
B
Std. Error
peou 0.39
0.09 4.58 0.00 peou 0.69
0.21 3.33 0.00
peol 0.26
0.08 3.40 0.00 peol -0.29
0.18 -1.58 0.12
16
17 这些问题，在线性回归中叫做多重共线性问题，因为线性关系不只出现在自、应变
30 易学性是不重要的。
31
1
版权所有，徐云杰，博士，新加坡国立大学电脑学院信息系统系。xuyj@.sg。版本号：Ｄ１－０
1
如果我们查看组合模型的回归系数，我们还会发现易学性的系数是负的（-
2 0.29），这几乎是这个变量单独作用是的相反数（0.26）。这“说明”易学性对信
(Constant) peou
peol
1
1
2.98
1.00
0.00
0.00
0.00
2
0.02
12.52
0.93
0.03
0.06
3
0.00
34.18
0.07
0.97
0.94
a
Dependent Variable: trust
24
25 可以看出，PEOU 和 PEOL 同时负载一个很小的主成份信息，所以具有多重共线
33 （VIF，variance inflation factor）。可以证明（附一），在标准化后的回归模型
34 中，b1 的方差是残差的方差乘以这个方差膨胀系数。当一个自变量中全部是独特
35 信息时，方差膨胀系数=1。方差膨胀系数是一个多重共线性的重要指标。在社会
2
版权所有，徐云杰，博士，新加坡国立大学电脑学院信息系统系。xuyj@.sg。版本号：Ｄ１－０
12 倍。这与回归系数的不稳定性是一致的，标准差变大意味着回归系数的变化范围变
13 大。同时，它也意味着这两个变量都变得更不容易具有显著性，因为显著性与系数
14 的标准差成反比。
15
独立作用时
组合模型
Unstandardized
Unstandardized
Coefficients
t
Sig.
Coefficients
15 量起作用。最后我们介绍两个自变量之间的调节作用，即一个自变量对应变量作用
16 的大小取决于另外一个自变量的水平。
17
18 多重共线性
19
我们先来回顾一下前一章的例子。我们假设消费者对网店的信任受到两个变
20 量的影响：网店的易用性与易学性。我们的方差分析结果表明虽然这两个变量在独
21 自作用时对应变量都有显著影响，当组合在一起时：
9 际研究中，研究者往往事先计划（而不是事后投机）使用多个高度相关的显性测度
10 来表示一个隐性变量，并用其均值进行回归。当然，理论模型要针对隐性变量而不
11 是显性测度。我们会在以后再详细介绍这种使用多个测度项的方法。
12 第三种方法是用(ridge regression)。使用这种方法不需去除自变量。但这种方法也
3
版权所有，徐云杰，博士，新加坡国立大学电脑学院信息系统系。xuyj@.sg。版本号：Ｄ１－０
1 由于这个样本的特殊性。“后见之明”会增加我们拒绝一个不该拒绝的假设的风
2 险，从而降低这个模型的统计效用（statistical power）。所以，正确的方法是在设
3 计理论模型的过程中就充分考虑到多重共线性出现的可能性，避免相关性高的自变4Biblioteka 量，从根本上解决这个问题。5
另一种方法是组合相关性很高的自变量(Stevens, 2002)。在这种情况下，多
6 个相关性很高的自变量其实被看作一个隐性变量（latent variable）的显性测度。常
7 用的办法是把这些相关自变量进行加总或平均，然后再放入回归模型。这种方法必
8 须首先保证相关自变量具有理论上的相关性。否则，这种组合是没有意义的。在实
18 量之间，而且出现在自变量之间。这种出现在自变量之间的线性关系使得自变量对
19 应变量的作用难以直观解释，并使得线性回归的结果不具有可靠性。
20
那么多重共线性的最基本的形成原因是什么呢？从理论的角度看，这是因为
21 自变量之间的信息重叠。这种信息重叠会导致一系列的数学后果，最终使得回归系
22 数变得无法解释或者不可靠。
1
第八章线性回归的建模
2 引言
3
我们以前对于单变量与多变量回归模型的介绍侧重于理解应、自变量之间的
4 最基本的数量关系，也即回归模型是如何表达应变量是如何被自变量解释的、应变
5 量中的信息可以如何被分解成不同的部分、这些不同的信息如何反映在回归系数、
6 （偏）决定系数、部分相关系数、残差、与方差分析上。我们在这一章所侧重的是
8 过高地表达了易用性对信任的作用（0.69），然后再用易学性进行反向调整（-
9 0.29）。显然，这不是我们建立回归模型的初衷（或者说，我们以前往往对回归分
10 析有一种误解，认为每一个回归系数表达了一个自变量对应变量的直接作用）。
11 我们还会发现回归系数的标准差变大了。对于这两个自变量，它们的标准差至少翻
20 90%是由这个很小的主成份贡献的，我们就知道这两个自变量之间有多重共线性
21 （常数项除外）。
22
在以上的例子中，从 SPSS 的输出我们得到：
23
Collinearity Diagnostics(a)
Condition
Model Dimension Eigenvalue Index
Variance Proportions
29 被叫做它（相对于其它自变量）的容限(tolerance)。一个自变量中的独特信息越
30 多，它的容限越小，即它越不容纳其它自变量中的信息。当一个变量中的信息全部
31 是独特是时候，它的容限是 0。注：Pedharzur and Schmelkin 1991 defined tolerance
32 in another way. This needs to be checked.]。 (1 − Rk2 ) 的倒数叫做方差膨胀系数
29 （longitudinal study）；第二，以 y 为核心变量，这种方法给出一种区分外围与直
30 接原因的工具。这样，我们可以理清哪些变量是 y 的最直接原因，从而简化且深化
31 对 y 的理解。所以，这种测试计划首先必须是基于理论论证的。
23
如何鉴定多重共线性呢？对于一个经过标准化的两个自变量的回归模型，我
24 们在前一章提到过：
25
b1
=
x'1
y − r12x'2 1 − r122
y
=
(x'1 −r12x'2 1 − r122
)y
=（x1
的相对于
x2
的残差与
y
的积和/x1
中的独特
26 信息），
27 所以b1 是一个y的线性组合。这意味着当x1 中的独特信息很少，即 (1 − r122 ) 很小， 28 b1 的方差就会很大。[xk中在被其它所有的自变量联合解释后的独特信息 (1 − Rk2 ) 又
1 科学中，经验法则是每一个自变量的方差膨胀系数应该小于 10（ref）（Kutner et
2 al., 1996）。显然，这个经验法则要求每一个变量的独特信息至少是 10%。但是，
3 方差膨胀系数小于 10 并不意味着没有多重共线性。在这个例子中，VIF(x1) = 1/(1-
4 0.912) = 5.82。但是显然，多重共线性已经产生严峻的副作用。
11 量水平的影响。对这些不同的自变量之间的关系的分析是一个科研模型在数据收集
12 与测试之前的不可或缺的步骤。在这一章，我们将先介绍多重共线性
13 （multicollinearity），它描述了两个变量之间的因为有过多的信息重复而导致的问
14 题。然后我们介绍自变量之间的中继关系，即一个自变量通过另一个自变量对应变
22
Sum of
Mean
Model
Squares df
Square F
Sig.
3 Regression 17.00
2
8.50 11.90
0.00
x1 15.23
1 15.23 21.32
0.00
x2|x1
1.77
1
1.77
2.48
0.12
Residual
73.58
103
0.71
Total
90.58
105
24 2004）。z 是中介变量（mediator）。
25
中介作用表达了一组变量之间的间接因果关系。这样的关系往往就是一个理
26 论假设的重点。很多论文的主题就是为了测试几个变量之间的的间接关系。如果一

e商务文档

定量研究方法论--多变量回归建模

相关文档推荐：