当前位置:文档之家› 定量研究方法论--多变量回归建模

定量研究方法论--多变量回归建模


23
24 所以,根据额外平方和,易学性在易用性的基础上没有显著地增加对信任的解释。
25 我们把这种结果归因于易学性和易用性之间的信息重复。这种模型的“危害”有哪
26 些呢?我们在以前已经提到过,这种模型:
27
28 *没有简洁性
29 *具有误导性。如果我们只看回归分析的结果,我们很可能得到一个错误的结论:
21 于 x 单独作用于 y 时显著地降低(c’),但仍大于零(图?)。如果 x 的回归系数变
22 为零,这种情况叫做完全中介,如果只是显著降低,则为部分中介(partial
23 mediation)。显然,部分中介的情况更为普遍(Baron & Kenny, 1986; Frazier et al.,
t
Sig.
B Std. Error
B
Std. Error
peou 0.39
0.09 4.58 0.00 peou 0.69
0.21 3.33 0.00
peol 0.26
0.08 3.40 0.00 peol -0.29
0.18 -1.58 0.12
16
17 这些问题,在线性回归中叫做多重共线性问题,因为线性关系不只出现在自、应变
30 易学性是不重要的。
31
1
版权所有,徐云杰,博士,新加坡国立大学电脑学院信息系统系。xuyj@.sg。版本号:D1-0
1
如果我们查看组合模型的回归系数,我们还会发现易学性的系数是负的(-
2 0.29),这几乎是这个变量单独作用是的相反数(0.26)。这“说明”易学性对信
(Constant) peou
peol
1
1
2.98
1.00
0.00
0.00
0.00
2
0.02
12.52
0.93
0.03
0.06
3
0.00
34.18
0.07
0.97
0.94
a
Dependent Variable: trust
24
25 可以看出,PEOU 和 PEOL 同时负载一个很小的主成份信息,所以具有多重共线
33 (VIF,variance inflation factor)。可以证明(附一),在标准化后的回归模型
34 中,b1 的方差是残差的方差乘以这个方差膨胀系数。当一个自变量中全部是独特
35 信息时,方差膨胀系数=1。方差膨胀系数是一个多重共线性的重要指标。在社会
2
版权所有,徐云杰,博士,新加坡国立大学电脑学院信息系统系。xuyj@.sg。版本号:D1-0
12 倍。这与回归系数的不稳定性是一致的,标准差变大意味着回归系数的变化范围变
13 大。同时,它也意味着这两个变量都变得更不容易具有显著性,因为显著性与系数
14 的标准差成反比。
15
独立作用时
组合模型
Unstandardized
Unstandardized
Coefficients
t
Sig.
Coefficients
15 量起作用。最后我们介绍两个自变量之间的调节作用,即一个自变量对应变量作用
16 的大小取决于另外一个自变量的水平。
17
18 多重共线性
19
我们先来回顾一下前一章的例子。我们假设消费者对网店的信任受到两个变
20 量的影响:网店的易用性与易学性。我们的方差分析结果表明虽然这两个变量在独
21 自作用时对应变量都有显著影响,当组合在一起时:
9 际研究中,研究者往往事先计划(而不是事后投机)使用多个高度相关的显性测度
10 来表示一个隐性变量,并用其均值进行回归。当然,理论模型要针对隐性变量而不
11 是显性测度。我们会在以后再详细介绍这种使用多个测度项的方法。
12 第三种方法是用(ridge regression)。使用这种方法不需去除自变量。但这种方法也
3
版权所有,徐云杰,博士,新加坡国立大学电脑学院信息系统系。xuyj@.sg。版本号:D1-0
1 由于这个样本的特殊性。“后见之明”会增加我们拒绝一个不该拒绝的假设的风
2 险,从而降低这个模型的统计效用(statistical power)。所以,正确的方法是在设
3 计理论模型的过程中就充分考虑到多重共线性出现的可能性,避免相关性高的自变4Biblioteka 量,从根本上解决这个问题。5
另一种方法是组合相关性很高的自变量(Stevens, 2002)。在这种情况下,多
6 个相关性很高的自变量其实被看作一个隐性变量(latent variable)的显性测度。常
7 用的办法是把这些相关自变量进行加总或平均,然后再放入回归模型。这种方法必
8 须首先保证相关自变量具有理论上的相关性。否则,这种组合是没有意义的。在实
18 量之间,而且出现在自变量之间。这种出现在自变量之间的线性关系使得自变量对
19 应变量的作用难以直观解释,并使得线性回归的结果不具有可靠性。
20
那么多重共线性的最基本的形成原因是什么呢?从理论的角度看,这是因为
21 自变量之间的信息重叠。这种信息重叠会导致一系列的数学后果,最终使得回归系
22 数变得无法解释或者不可靠。
1
第八章 线性回归的建模
2 引言
3
我们以前对于单变量与多变量回归模型的介绍侧重于理解应、自变量之间的
4 最基本的数量关系,也即回归模型是如何表达应变量是如何被自变量解释的、应变
5 量中的信息可以如何被分解成不同的部分、这些不同的信息如何反映在回归系数、
6 (偏)决定系数、部分相关系数、残差、与方差分析上。我们在这一章所侧重的是
8 过高地表达了易用性对信任的作用(0.69),然后再用易学性进行反向调整(-
9 0.29)。显然,这不是我们建立回归模型的初衷(或者说,我们以前往往对回归分
10 析有一种误解,认为每一个回归系数表达了一个自变量对应变量的直接作用)。
11 我们还会发现回归系数的标准差变大了。对于这两个自变量,它们的标准差至少翻
20 90%是由这个很小的主成份贡献的,我们就知道这两个自变量之间有多重共线性
21 (常数项除外)。
22
在以上的例子中,从 SPSS 的输出我们得到:
23
Collinearity Diagnostics(a)
Condition
Model Dimension Eigenvalue Index
Variance Proportions
29 被叫做它(相对于其它自变量)的容限(tolerance)。一个自变量中的独特信息越
30 多,它的容限越小,即它越不容纳其它自变量中的信息。当一个变量中的信息全部
31 是独特是时候,它的容限是 0。注:Pedharzur and Schmelkin 1991 defined tolerance
32 in another way. This needs to be checked.]。 (1 − Rk2 ) 的倒数叫做方差膨胀系数
29 (longitudinal study);第二,以 y 为核心变量,这种方法给出一种区分外围与直
30 接原因的工具。这样,我们可以理清哪些变量是 y 的最直接原因,从而简化且深化
31 对 y 的理解。所以,这种测试计划首先必须是基于理论论证的。
23
如何鉴定多重共线性呢?对于一个经过标准化的两个自变量的回归模型,我
24 们在前一章提到过:
25
b1
=
x'1
y − r12x'2 1 − r122
y
=
(x'1 −r12x'2 1 − r122
)y
=(x1
的相对于
x2
的残差与
y
的积和/x1
中的独特
26 信息),
27 所以b1 是一个y的线性组合。这意味着当x1 中的独特信息很少,即 (1 − r122 ) 很小, 28 b1 的方差就会很大。[xk中在被其它所有的自变量联合解释后的独特信息 (1 − Rk2 ) 又
1 科学中,经验法则是每一个自变量的方差膨胀系数应该小于 10(ref)(Kutner et
2 al., 1996)。显然,这个经验法则要求每一个变量的独特信息至少是 10%。但是,
3 方差膨胀系数小于 10 并不意味着没有多重共线性。在这个例子中,VIF(x1) = 1/(1-
4 0.912) = 5.82。但是显然,多重共线性已经产生严峻的副作用。
11 量水平的影响。对这些不同的自变量之间的关系的分析是一个科研模型在数据收集
12 与测试之前的不可或缺的步骤。在这一章,我们将先介绍多重共线性
13 (multicollinearity),它描述了两个变量之间的因为有过多的信息重复而导致的问
14 题。然后我们介绍自变量之间的中继关系,即一个自变量通过另一个自变量对应变
22
Sum of
Mean
Model
Squares df
Square F
Sig.
3 Regression 17.00
2
8.50 11.90
0.00
x1 15.23
1 15.23 21.32
0.00
x2|x1
1.77
1
1.77
2.48
0.12
Residual
73.58
103
0.71
Total
90.58
105
24 2004)。z 是中介变量(mediator)。
25
中介作用表达了一组变量之间的间接因果关系。这样的关系往往就是一个理
26 论假设的重点。很多论文的主题就是为了测试几个变量之间的的间接关系。如果一
相关主题