当前位置:
文档之家› 心理学常用效应量的选用与分析
心理学常用效应量的选用与分析
(2) Hedges 的 g 值 上面第二种方法对应的两组差异的效应量为
g = ( y1 − y2 ) s pooled
(4)
就是 Hedges (1981)的 g 值, 其中 spooled 是所有组的 混合标准差, 即单因素方差分析中的误差均方
(MSE):
1
s pooled
=
⎡ ⎢ ⎢⎣
(n1 −1)s12 (n1 −1)
1 2
( ya1b1
+
ya1b2 )
−
1 2
( ya2b1
+
ya2b2 )
(9)
其中 ya1b1 表示处理 a1b1 上的得分均值, 其余符 号类推。如果研究目的是比较不同阅读速度的差
异(即对因素 B 的主效应感兴趣), 用线性对比表
示为:
1 2
( ya1b1
+
ya 2b1 )
−
1 2
( ya1b2
2 效应量的计算
2.1 差异类效应量
这类效应量一般用于实验研究, 进行两组均
值比较或多组均值比较。在两组均值比较的情况
下, 最直观的是用两组的均值差值作为效应量。
但在心理学研究中, 使用原始数据的均值差值作
为效应量会存在单位不统一、研究间效应量无法
比较的问题, Cohen (1969)和 Glass (1976)提出用
子
类
Cohen 的 d 值, Glass 的Δ值和 Hedge 的 g 值 r、rpb、rb、requivalent, ϕ及 Cramer 的 V 系数等基于χ2 统计量的相关系数等; 方差比 f2, R2, η2, ω2, ε2; 以及 ralerting, reffectsize, rcontrast 等 Improvement-Over-Chance index, 简称 I 效应量
摘 要 效应量在量化方面弥补了零假设检验的不足。除了报告检验结果外, 许多期刊还要求在研究报告中 包括效应量。效应量可以分为三大类别:差异类、相关类和组重叠类, 它们在不同的研究设计(如单因素和多 因素被试间、被试内和混合实验设计)或在不同的数据条件下(如小样本、方差异质等)可能有不同的计算方法 和用法, 但许多效应量可以相互转换。我们梳理出一个表格有助应用工作者根据研究目的和研究类型选用合 适的效应量。 关键词 效应量; 差异; 相关; 组重叠 分类号 B841.2
示(a1)和误导提示(a2); 因素 B—— 阅读速度, 有
2 个水平:快速阅读(b1), 常速阅读(b2)。因变量
是阅读理解成绩 y。有 4 个水平组合, 即有 4 个实
验处理:a1b1, a1b2, a2b1, a2b2 。如果研究目的是
比较不同的提示类型的差异(即对因素 A 的主效
应感兴趣), 用线性对比表示为:
的特殊情形, 如实验组 a、b 和控制组 c 的均值差
异为
1 2
(μa
+
μb
)
−
μc
,
不同实验处理组的均值差
异 μa − μb 。
线 性 对 比 的 效 应 量 定 义 为 ( 见 Olejnik &
Algina, 2000)
δ =ψ σ
(1)
分母σ 是混合标准差(pooled standard deviation)。
效应量公式。
(1) Cohen 的 d 值
上面第一种方法对应的两组差异的效应量为
d = ( y1 − y2 ) σ pooled
(2)
1
σ pooled
=
⎡ ⎢ ⎢⎣
(n1
− 1) s12 n1
+ +
(n2 n2
−
1)s22
⎤ ⎥ ⎥⎦
2
(3)
就是 Cohen (1969)的 d 值。 Cohen 的 d 有两种解释。一是实验组均值位
均值之差的标准化值替代原始均值差值, 是差异
类效应量的基础。
2.1.1 单因素实验设计
单因素实验设计时, 均值的差异可以是两组比
较, 也可以是多组比较, 其一般形式为线性对比
(contrast, Keppel & Wickens, 2004; Kline, 2004;
Bonett, 2008; 温忠麟, 2006):ψ = c1μ1 + L + cJ μJ , 其中 J 是组数, μi 表示第 i 组的均值, i = 1,L, J , ci 是常数满足 c1 + L + cJ = 0 。均值差异是线性对比
+
ya2b2 )
下面分类介绍不同研究对应的效应量及其 具体计算方法, 同时考虑其中的自变量个数(单 因素和多因素)、实验设计类型(被试内、被试间 和混合实验设计)以及数据条件(如是否同质及样 本大小等)。
1868
第 12 期
郑昊敏等: 心理学常用效应量的选用与分析
1869
类别 差异类 相关类
组重叠
表 1 效应量分类
所有的组都用来加权计算(Hedges, 1981)。
(3)当方差同质假设不成立时, 只用所有组的
其中一组, 一般是控制组(Glass, 1976), 此时该组
的权重是 1。
特别地, 假设要比较的是第 1 组和第 2 组的
差异。各组的样本容量分别为 n1, n2 ,L, nJ , 样本 均 值 分 别 为 y1, y2 ,L, yJ , 样 本 标 准 差 分 别 为 s1, s2 ,L, sJ 。下面分别介绍上面三种方法对应的
+L +L
+ +
(nJ (nJ
− −
1)sJ2 1)
⎤ ⎥ ⎥⎦
2
(5)
1870
心 理科学进展
第 19 卷
应用中最常见的是实验组控制组两组比较
(即 J=2), 此时
1
s pooled
=
⎡ ⎢ ⎢⎣
(n1
− 1) s12 n1 +
+ (n2 −1)s22 n2 − 2
⎤ ⎥ ⎥⎦
2
(6)
不难看出,
1
用各组的样本均值代替各组的总体均值, 就可以
估计Ψ, 问题是如何估计σ。混合方差σ2 通常用各
组样本方差的“加权”平均来估计, “加权”的方法
主要有下面三种, 每一种都相应地产生一种效应
量计算公式:
(1)只 用 要 比 较 的 组 来 “加 权 ”计 算 (Cohen,
1969)。
(2)当方差同质假设成立时, 实验设计条件下
文献上出现过的效应量种类繁多, 本文按效 应 量 的 统 计 意 义 将 其 分 成 如 下 三 类 : (1) 差 异 类 (difference-type), (2)相关类(correlation-type ), (3) 组重叠(group-overlap), 详见表 1。
文献上关于效应量的分类不尽一致, 大多数 研究把差异类、相关类和方差比效应量归为三大 类。但仔细分析可以发现, 方差比效应量(如 R2、 η2、ω2、ε2)与相关大小有关, 可以归为相关类。 以往的研究中较少提及组重叠类效应量, 考虑到 一些数据条件的限制(如总体非正态、方差不同质 等), 同时它具有差异类和相关类效应量所有和所没 有的优点, 所以把组重叠类效应量单独作为一类。
严重高估δ, Hedges 和 Olkin (1985)提出用 c(m)=
1− 3 来校正 4m −1
d
(其中 m = n1 + n2 − 2 ),
也用
来校正 Δ (其中 m =验设计
即使是比较同样两组均值的差异, 不同的实
验设计也会有不同的效应量, 因为效应量衡量的
是不同的实验设计的效应而不是结果的差异大小,
标准化均值差异在多因素实验设计时比在单因素
实验设计时会更大(Olejnik & Algina, 2000), 因此 有必要针对不同的实验设计区分不同的效应量计
算方法。
多因素实验设计中的差异比较, 归根结底还 是组之间的差异比较, 这里所说的组是基于实验 处理的分组。如所知, 所谓实验处理, 是不同因素
g
=
⎡ ⎢ ⎣
n1 + n1
n2 − + n2
2⎤ ⎥ ⎦
2
d
(7)
(3) Glass 的 Δ 值 由上面第三种方法可以得到两组差异的一个
效应量为
Δ = ( y1 − y2 ) s2
(8)
称为 Glass 的 Δ 值。
对于常见的实验组控制组两组比较, 通常用
控制组的标准差作为 Δ 值的分母。一般在有明显
的控制组存在且控制组的样本容量比较大, 以及
实验组与控制组的条件差异比较大时才会使用 Δ
值(Rosenthal, 1991)。因为实验组的均值和标准差
会受到实验处理的影响, 但控制组的标准差却不
会, 因此它更能代表总体标准差(Vacha-Haase &
Thompson, 2004)。不过, 当方差不同质时, 把控
量有以下几个好处(Ruscio, 2008):区分统计显著 性和实际显著性(Kirk, 1996); 通过元分析方法累 计或比较以往研究结果(Hunter & Schmidt, 2004); 估计统计检验力(Cohen, 1988)。效应量与研究设 计和研究目的有关, 它可以是任何我们感兴趣的 量的大小, 可以涉及单变量、双变量和多变量。 如我们熟悉的均值、均值的差异、中位数、相关 系数、频率、回归的斜率以及方差的比例等(Lipsey & Wilson, 2000)。
针对零假设检验存在的不足, 一些国际期刊 要求在报告检验结果的同时还要报告效应量 (effect size)。效应量在心理学研究中受到重视, 国 际上已经有许多关注效应量的研究(例如, Wilkinson & Task Force on Statistical Inference, 1999; APA, 2001; Rosnow & Rosenthal, 2003, 2009)。国内关于 效应量的研究还不多, 但已有学者认识到了统计 检验力和效应量大小的计算方法问题的重要性。 胡竹菁(2010)以平均数差异显著性检验为例, 具 体介绍了在对实验数据进行假设检验后, 如何对 统计检验力和效应量大小进行估计。吴艳和温忠 麟 (2011) 给 出 了 一 个 与 零 假 设 检 验 有 关 的 统 计 分 析流程, 其中涉及何时需要估计效应量。但如何 选用合适的效应量并作出估计, 还是一个问题。 本文对效应量进行分类, 针对不同的研究目的和 研究设计, 介绍效应量的计算方法。