问卷的信度和效度分析
1 信度 信度 (reliability) 主要评价量表的精确 性 、 稳 定 性 和 一 致
性, 即测量过程中随机误差造成的测定值的变异程度的大小。 常用的信度指标有重测信度、 复本信度、 折半信度、 内部一致 性信度和评价者间信度。 1.1 重测信度和评价者间信度
重复测量: 如果采用一个问卷由同一人在同一群体中测量 两次, 评价两次测量的相关性, 则称为重测信度, 应用广泛, 一 般 而 言 , 重 测 信 度 系 数 能 达 到 0.70 以 上 即 可 ; 如 果 采 用 一 个问卷由不同的评价者在同一群体中进行测量, 从而计算不同 评价者间的一致性, 则称为评价者间信度, 误差主要来源于调 查员对问卷理解的差异及其对研究对象的影响, 如果量表是自 评而不是他评, 则不需要计算评价者间的一致性。
型可得:
ICC=
BMS-WMS BMS+ Σ K-1 Σ WMS
(5)
根 据 方 差 分 析 很 容 易 地 得 到 BMS 和 WMS, 从 而 计 算 出
· 430 ·
现代预防医学 2010 年第 37 卷第 3 期 Modern Preventive Medicine, 2010, Vol.37, NO.3
α 会很容易地升至 0.90 以上; 如果量表的条目减少, α 会随之
降 低 , 一 个 4 个 条 目 的 量 表 , α 有 时 可 能 会 低 于 0.60 或 0.50。
因此, 判断量表信度时, 首先应当了解该量表条目的数量, 然
后再以此为基础, 判断 α 是否达到了可以接受的水平。 ② 量
· 429 · 【流行病与统计方法】
摘要: 进行问卷式调查研究的统计分析前, 应考评问卷的信度和效度, 以确保研究结果的可靠性和准确性。 本文对 问卷的信度和效度评价这一问题作了详细的探讨。
关键词: 问卷; 信度; 效度
倪 宗 瓒 主 编 的 《 医 学 统 计 学 》[1]一 书 中 指 出 : 一 般 来 说 , 凡是通过测量工具得到的结果, 无论是通过测定仪器得到的硬 数据 (如物理测定), 还是通过测定量表、 考卷得到的软数据 (如心理测定、 考试等), 均需进行信度和效度分析; 信度与效 度评价的对象可以是整个测定量表 (对整个量表评价), 也可 以是各个方面或领域 (对领域评价), 还可以是具体的条目 (对条目评价); 一般来说, 如果是标准化测定量表, 通常分别 进行总量表和各个领域的评价, 对包含各种条目的一般问卷, 很难进行整个调查表的考评, 一般就对某些条目或领域进行考 评, 并以此间接说明整个调查表的好坏。 在实际工作中, 如果 只是直接运用问卷调查的结果进行分析和推断, 而未对调查问 卷本身进行可信度和有效度的评价分析, 这就使得调查的准确 性、 统计分析结论的科学性以至于研究成果的质量不能不受到 影响及质疑。 本文主要介绍信度和效度的评价方法, 特别适合 于各条目均为线性方式或等级方式的问卷或量表。
重 测 信 度 (test-retest reliability) 又 称 稳 定 性 系 数 , 即 使 用同一测验, 在不同时间对同一群体施测两次, 两次测验分数 的相关系数。 根据所测定特质的数据表现方式, 可采用积矩相 关系数、 等级相关系数和列联系数等来表示。 从相关系数的大
作者简介: 蒋小花 (1982-), 女, 硕士, 研究方向: 统计方法在流 行 病学研究中的应用
ICC。 一 般 来 说 , ICC 大 于 0.75 表 示 极 好 , ICC 在 0.6 到 0.75
表 示 较 好 [4]。
1.2 复本信度
复 本 信 度 (equivalent-form reliability) 也 称 替 代 信 度 (al-
ternative -form reliability) 或 平 行 信 度 ( parallel -form reliabili-
分量表的内部信度, 否则会降低问卷的内部信度。 倪宗瓒主编
的 《医学统计学》[1]一书中也指出: Cronbach’s α 系数最好用于
量表的低层结构 (如领域、 方面等子量表) 的信度考察, 通过
每个子量表的考察结果再来综合反映整个量表的情况, 而不宜
仅计算一个总量表的 α 系数。 原因是低层结构中的条目都是反
评 价 者 间 信 度 (inter-scorer reliability) 的 考 察 方 法 有 多
种, 当评估的变量是分类变量时, 可用 Kappa 系数 K 来评估:
K= P0-Pc
(1)
1-Pc
k
Σ P0= Aii N
(2)
i=1
k
Σ Pc= ni+n+i N2
(3)
i=1
式中, P0 为观察一致率, Pc 为机遇一致率, k 为分 组 数 或 等 级 数 , Aii 为 k×k 表 主 对 角 线 上 的 实 际 例 数 , ni+和 n+i 分 别 为 第 i 行 和 第 i 列 的 合 计 。 一 般 来 说 , Kappa 系 数 大 于 0.75 表 示
来评价。 设有 K 个评价者, N 个受测者, 将欲测定的量表的得
分变异 (SS) 分解为评价者间得分变异 (BSS)、 评价者内得分
变 异 (WSS) 和 误 差 (ESS) 3 部 分 , 由 于 主 要 分 析 评 价 者 间
的 变 异 , 将 WSS 与 ESS 合 并 为 WSS, 按 随 机 效 应 方 差 分 析 模
映同一方面的特征, 相关性较高, 而总量表要考虑一定的 “覆
盖面”, 因而具有一定的 “异质性”。 如在生命质量测量中可以
分别计算心理功能、 躯体功能等领域的 α 系数, 在心理测量中
可以分别计算焦虑、 抑郁、 孤独等方面的 α 系数。
α 系数越大表示条目间相关性越好, 一般而言, α 大于
0.8 表 示 内 部 一 致 性 极 好 , α 在 0.6 到 0.8 表 示 较 好 , 而 低 于
0.6 表 示 内 部 一 致 性 较 差 。 但 是 在 判 断 问 卷 量 表 内 部 一 致 性 高
低时, 至少需要认真考虑以下两个因素[6]: ① 量表条目数量的
多 少 。 一 个 含 10 个 左 右 条 目 的 量 表 , 克 朗 巴 赫 α 应 能 达 到
0.80 以上; 如果条目增加, α 会随之升高, 条目多于 20 个时,
1.3 折半信度
折 半 信 度 (split-half reliability) 法 是 将 调 查 项 目 分 为 两
半, 计算两半得分的相关系数, 进而估计整个量表的信度。 此
法要求二者方差齐性, 且折半的方式不同得到的相关系数值亦
不同[5]。 折半信度属于内部一致性系数, 测 量 的 是 两 半 题 项 得
现代预防医学 2010 年第 37 卷第 3 期 Modern Preventive Medicine, 2010, Vol.37, NO.3
文 章 编 号 : 1003-8507(2010)03-0429-03
中 图 分 类 号 : R195.1
文献标识码: B
问卷的信度和效度分析
蒋小花 1, 沈卓之 2, 张楠楠 3, 廖洪秀 2, 徐海燕 2
Omega 系数法则可提供较准确的估计值。 其计算步骤为: 先对
ቤተ መጻሕፍቲ ባይዱ
问卷得分的相关矩阵求解, 用最大特征值构造的统计量为 θ 系
常含有数个主题 (欲测概念), 或同一主题的不同侧面, 因此
无法满足此要求。 此外, 尽管问卷测量的概念可能仅为一个,
但其中每个题目所解释的变异量不尽相同, 若用 α 系数法, 在
结果解释方面便有局限性。 分析发现, 使用 α 系数法低估了整
份 问 卷 的 内 部 一 致 性 , 而 基 于 因 子 分 析 的 Theta 系 数 法 及
相关系数 rh (即半个量表的信度系数), 最后用斯皮尔曼-布朗 (Spearman-Brown) 公 式 (r=2rh / (1+rh)) 求 出 整 个 量 表 的 信 度 系数 r。
1.4 内部一致性信度
内 部 一 致 性 信 度 (internal consistent reliability) 是 目 前 比
分间的一致性。 这种方法一般不适用于事实式问卷 (如年龄与
性 别 无 法 相 比 ), 常 用 于 态 度 、 意 见 式 问 卷 的 信 度 分 析 [3]。 进
行折半信度分析时, 如果量表中含有反意题项, 应先将反意题
项的得分作逆向处理, 以保证各题项得分方向的一致性, 然后
将全部题项按奇偶或前后分为尽可能相等的两半, 计算二者的
作 者 单 位 : 1.成 都 市 玉 林 社 区 卫 生 服 务 中 心 , 成 都 ; 2.四 川 大 学 华 西 公共卫生 学 院 卫 生 统 计 学 教 研 室 ; 3.成 都 军 区 总 医 院 医 务 部
小可知经过一段时间后测量结果的稳定程度, 重测信度越高,
测量结果越一致可靠, 也表明受测验环境中日常随机因素的影
表条目的内容范围。 一个具有较高内部一致性的量表, 未必就
是一个好的量表。 只要将同一测题以各种不同的说法写出来,
就可以得到很高的内部一致性。 但显然, 这种量表仅测量了一
个极端狭窄的方面, 未必能全面反映测量目标。 如果量表包含
的内容范围较广, 内部一致性一般会有所降低。 量表研制者追
求的, 是既能全面反映测量目标 (内容范围足够大) 又有较高
重复信度极好, 在 0.4~0.75 表示较好, 而低于 0.4 表示较差。
如果是等级资料, 可以用肯德尔和谐系数来表示:
Σ Σ N
2 N
Σ Σ 2 Ri -
Ri N
W=
i
=
1 2