当前位置:
文档之家› 心理学常用效应量的选用与分析
心理学常用效应量的选用与分析
+L +L
+ +
(nJ (nJ
− −
1)sJ2 1)
⎤ ⎥ ⎥⎦
2
(5)
1870
心 理科学进展
第 19 卷
应用中最常见的是实验组控制组两组比较
(即 J=2), 此时
1
s pooled
=
⎡ ⎢ ⎢⎣
(n1
− 1) s12 n1 +
+ (n2 −1)s22 n2 − 2
⎤ ⎥ ⎥⎦
2
(6)
不难看出,
1
1 效应量的类型
效应量是衡量实验效应强度或者变量关联强 度的指标(Snyder & Lawson, 1993), 它不受样本 容量大小的影响(或者影响很小)。计算和报告效应
收稿日期: 2010-11-10 * 国家自然科学基金项目(30870784)和教育部人文社科
重点研究基地项目(11JJD190005)资助。 通讯作者: 温忠麟, E-mail: wenzl@
制组的标准差作为分母并非唯一的选择, 研究者
可以根据实际需要去选择一种认为最重要的组的
标 准 差 作 为 线 性 对 比 的 分 母 (Glass, McGaw, & Smith, 1981)。
上述三种效应量在大样本研究时一般相差很
小(Rosnow & Rosenthal, 2003)。对于小样本, d 会
下面分类介绍不同研究对应的效应量及其 具体计算方法, 同时考虑其中的自变量个数(单 因素和多因素)、实验设计类型(被试内、被试间 和混合实验设计)以及数据条件(如是否同质及样 本大小等)。
1868
第 12 期
郑昊敏等: 心理学常用效应量的选用与分析
1869
类别 差异类 相关类
组重叠
表 1 效应量分类
是不同的实验设计的效应而不是结果的差异大小,
标准化均值差异在多因素实验设计时比在单因素
实验设计时会更大(Olejnik & Algina, 2000), 因此 有必要针对不同的实验设计区分不同的效应量计
算方法。
多因素实验设计中的差异比较, 归根结底还 是组之间的差异比较, 这里所说的组是基于实验 处理的分组。如所知, 所谓实验处理, 是不同因素
均值之差的标准化值替代原始均值差值, 是差异
类效应量的基础。
2.1.1 单因素实验设计
单因素实验设计时, 均值的差异可以是两组比
较, 也可以是多组比较, 其一般形式为线性对比
(contrast, Keppel & Wickens, 2004; Kline, 2004;
Bonett, 2008; 温忠麟, 2006):ψ = c1μ1 + L + cJ μJ , 其中 J 是组数, μi 表示第 i 组的均值, i = 1,L, J , ci 是常数满足 c1 + L + cJ = 0 。均值差异是线性对比
的特殊情形, 如实验组 a、b 和控制组 c 的均值差
异为
1 2
(μa
+
μb
)
−
μc
,
不同实验处理组的均值差
异 μa − μb 。
线 性 对 比 的 效 应 量 定 义 为 ( 见 Olejnik &
Algina, 2000)
δ =ψ σ
(1)
分母σ 是混合标准差(pooled standard deviation)。
的控制组存在且控制组的样本容量比较大, 以及
实验组与控制组的条件差异比较大时才会使用 Δ
值(Rosenthal, 1991)。因为实验组的均值和标准差
会受到实验处理的影响, 但控制组的标准差却不
会, 因此它更能代表总体标准差(Vacha-Haase &
Thompson, 2004)。不过, 当方差不同质时, 把控
1 2
( ya1b1
+
ya1b2 )
−
1 2
( ya2b1
+
ya2b2 )
(9)
其中 ya1b1 表示处理 a1b1 上的得分均值, 其余符 号类推。如果研究目的是比较不同阅读速度的差
异(即对因素 B 的主效应感兴趣), 用线性对比表
示为:
1 2
( ya1b1
+
ya 2b1 )
−
1 2
( ya1b2
2 效应量的计算
2.1 差异类效应量
这类效应量一般用于实验研究, 进行两组均
值比较或多组均值比较。在两组均值比较的情况
下, 最直观的是用两组的均值差值作为效应量。
但在心理学研究中, 使用原始数据的均值差值作
为效应量会存在单位不统一、研究间效应量无法
比较的问题, Cohen (1969)和 Glass (1976)提出用
针对零假设检验存在的不足, 一些国际期刊 要求在报告检验结果的同时还要报告效应量 (effect size)。效应量在心理学研究中受到重视, 国 际上已经有许多关注效应量的研究(例如, Wilkinson & Task Force on Statistical Inference, 1999; APA, 2001; Rosnow & Rosenthal, 2003, 2009)。国内关于 效应量的研究还不多, 但已有学者认识到了统计 检验力和效应量大小的计算方法问题的重要性。 胡竹菁(2010)以平均数差异显著性检验为例, 具 体介绍了在对实验数据进行假设检验后, 如何对 统计检验力和效应量大小进行估计。吴艳和温忠 麟 (2011) 给 出 了 一 个 与 零 假 设 检 验 有 关 的 统 计 分 析流程, 其中涉及何时需要估计效应量。但如何 选用合适的效应量并作出估计, 还是一个问题。 本文对效应量进行分类, 针对不同的研究目的和 研究设计, 介绍效应量的计算方法。
摘 要 效应量在量化方面弥补了零假设检验的不足。除了报告检验结果外, 许多期刊还要求在研究报告中 包括效应量。效应量可以分为三大类别:差异类、相关类和组重叠类, 它们在不同的研究设计(如单因素和多 因素被试间、被试内和混合实验设计)或在不同的数据条件下(如小样本、方差异质等)可能有不同的计算方法 和用法, 但许多效应量可以相互转换。我们梳理出一个表格有助应用工作者根据研究目的和研究类型选用合 适的效应量。 关键词 效应量; 差异; 相关; 组重叠 分类号 B841.2
于控制组的相对位置(百分等级), 二是两组分布 不重叠的程度。Cohen (1969)提出, d=0.2、d=0.5 和 d=0.8 分别对应于小、中、大的效应量, 这三 个效应量对应的“实验组均值在控制组的百分等 级”分别为 58%、69%和 79%, “两组分布不重叠的 比例”分别为 14.7%、33.0%和 47.4%。但是, Cohen 也指出不可盲目使用这一标准, 如果把它严格当 成像显著性的 0.05 临界值那样, 我们又愚蠢的使用 了另一套测量标准(参见 Thompson, 2001), 因为在 某些专业领域(如医学), 有时即使是非常小的效应 量也是很重要的, 所以建议对效应量大小的解释最 好还是参照以往的研究成果或实际情况进行。
用各组的样本均值代替各组的总体均值, 就可以
估计Ψ, 问题是如何估计σ。混合方差σ2 通常用各
组样本方差的“加权”平均来估计, “加权”的方法
主要有下面三种, 每一种都相应地产生一种效应
量计算公式:
(1)只 用 要 比 较 的 组 来 “加 权 ”计 算 (Cohen,
1969)。
(2)当方差同质假设成立时, 实验设计条件下
+
ya2b2 )
严重高估δ, Hedges 和 Olkin (1985)提出用 c(m)=
1− 3 来校正 4m −1
d
(其中 m = n1 + n2 − 2 ),
也用
来校正 Δ (其中 m = n2 −1 )。
2.1.2 多因素实验设计
即使是比较同样两组均值的差异, 不同的实
验设计也会有不同的效应量, 因为效应量衡量的
各取一个水平得到的水平组合, 有多少种组合就
有多少种实验处理。我们感兴趣的各种差异, 都
可以用线性对比呈现出来, 包括主效应, 交互效
应和简单主效应(Bird, 2004)。
例如, 一个实验探讨小学生“对文章内容的
不同预期对阅读理解的影响”, 有两个因素:因素
A—— 不同类型标题提示, 有 2 个水平:正确提
文献上出现过的效应量种类繁多, 本文按效 应 量 的 统 计 意 义 将 其 分 成 如 下 三 类 : (1) 差 异 类 (difference-type), (2)相关类(correlation-type ), (3) 组重叠(group-overlap), 详见表 1。
文献上关于效应量的分类不尽一致, 大多数 研究把差异类、相关类和方差比效应量归为三大 类。但仔细分析可以发现, 方差比效应量(如 R2、 η2、ω2、ε2)与相关大小有关, 可以归为相关类。 以往的研究中较少提及组重叠类效应量, 考虑到 一些数据条件的限制(如总体非正态、方差不同质 等), 同时它具有差异类和相关类效应量所有和所没 有的优点, 所以把组重叠类效应量单独作为一类。
量有以下几个好处(Ruscio, 2008):区分统计显著 性和实际显著性(Kirk, 1996); 通过元分析方法累 计或比较以往研究结果(Hunter & Schmidt, 2004); 估计统计检验力(Cohen, 1988)。效应量与研究设 计和研究目的有关, 它可以是任何我们感兴趣的 量的大小, 可以涉及单变量、双变量和多变量。 如我们熟悉的均值、均值的差异、中位数、相关 系数、频率、回归的斜率以及方差的比例等(Lipsey & Wilson, 2000)。