当前位置:
文档之家› 统计学的基本概念–样本量与检验效能
统计学的基本概念–样本量与检验效能
– 如果零假设成立,那么
x2 x1 ~ N (true effect 0, S.E.2 )
比如说,如果观察到的疗效值比1.96·S.E. 大,那么意味着 p<0.05
– p=0.003 如果零假设成立,那就出现了1000人中只有3人有疗 效的极端情况 = 概率很低
15
假设检验步骤 III
12
适用于我们的例子的S.E.和CI公式
S.E.
2 n
10
2 100
1.41
95% CI : x2 x1 1.96 S.E. 4.6 1.961.41 Interval [7.4,1.8]
99% CI : x2 x1 2.58 S.E. 4.6 2.581.41 Interval [8.2,1.0]
4. 简要判断 以P值与事先设定的显著性水平 α 作比较(通常 α=5%)
a) p ≤ α (通常: p ≤0.05) “有统计意义” “拒绝零假设” 那就意味着两组间的差别有统计意义
b) p> α (通常: p >0.05) “无统计意义” “零假设成立” 但是,并不说明两组一样! – 有可能是因为: - 两组间确实无差别 - 无法测出存在的差别
27
适用于两组间比较的简单样本量公式
28
计算样本量的参数(连续性结果)
• 必须在试验中能测到的效应大小: δ (情境依赖)
• 病人结果的标准差与样本均数的差异: σ (情境依赖)
• 显著性水平: α (一般: α =5%)
• 检验效应大小的检验效能: 1-β (一般: 1-β=80% or 90%)
• 在设计随机对照临床试验时,设定样本量是一个 严肃的问题! – 伦理学方面
• 样本量过大 太多的病人暴露在RCT的危险中 • 样本量过小 尽管病人暴露在RCT的危险中,但试
验却无法说明重要的临床差异。
– 经济方面
• 以上两种情况都会导致资源和时间的浪费
25
样本量计算基本原理
•在RCT中,通常根据试验的主要检测指标计算样本量, 还根据: – 选定的显著性水平和检验效能 – 两个治疗组之间的预期差异
True (population) effect
-12
-10
-8
-6
-4
-2
Observed treatment effect
0
11
计算CI几个类似的公式
90% CI : x2 x1 1.64 S.E. 95% CI : x2 x1 1.96 S.E. 99% CI : x2 x1 2.58 S.E.
?
干预组
结果
时间
目标人群
研究对象
对照组
结果
4
统计学的一些基本问题
• 对真实的(总体)疗效最可靠的估计是怎样的? 估计 • 从中得出的总体疗效在什么范围内是可信的? 可信区间 • 治疗是否有效?也就是说, 我们是否能得出真实疗效不等于
0的结论? 假设检验
5
在同样的目标人群中 50个随机对照临床试验的观测值
需要多少病人?
根据公式得出 n=109 (每组) 总病人数:N=218
38
研究标书中样本量的标准说明
• 这个试验中衡量效能的主要指标是,每组中出现完全肿瘤反应的病人 的比例。
α)
正确拒绝
显著性水平: 犯第一类错误的可能性. (一般取: α=5% or 1%.) 检验效能: 1- 犯第二类错误的可能性. (一般取: 1-β=80% or 90%.)
19
p值和可信区间的解释– 实例
20
* Kirkwood&Sterne, p.76 f
例子
• 有3种针对心脏病发作高危的中年人群的降血脂新药(A, B,C)
降值(δ=5) α=5% (双侧), β=10% (90% 检测效能)
需要多少病人?
根据公式得出:Δ=0.5 n = 84 (每组) 共需要168位患者以供随机分配。
34
各组总样本量不同时的样本量
• 假设不需要1:1随机配对, 而是1:2. 这对样本量有什么影响?
• 理论上的结果:如果随机分配到一个组的病人比率是π,我
180 -20 (-85,+45) 0.54 180 -2 (-8.5,+4.5) 0.54
5000 175
180 -5 (-8.9,-1.1) 0.01
22
重点
• P值大并不代表零假设是正确的
– “没有证据并不证明不存在”
• 统计学意义不完全和临床相关
– 小试验 真实疗效大不一定会有统计学意义 – 大试验 疗效小也可以有统计学意义
• 最小的临床相关性差异 • 预期的差异(根据之前的试验
和/或专家的判断) – 个值和总体均值之间的差异
26
选择 接受 H0 拒绝 H0
显著性检验的选择
H0 成立
正确接受
结果 HA 成立
错误接受(第二类错误, β)
错误拒绝(第一类错误,
α)
正确拒绝
显著性水平: 犯第一类错误的可能性. (一般取: α=5% or 1%.) 检验效能: 1- 犯第二类错误的可能性. (一般取: 1-β=80% or 90%.)
• 结果
– 使用安慰剂后血压改变的均值: – 使用降压药后血压改变的均值: 观察到的降压药效果:
x1 = -0.8 mmHg x2 = -5.4 mmHg x2 - x1 = -4.6 mmHg
– 个值偏离平均值的距离的平均数(标准差): σ = 10 mmHg
• 我们可以从中学到什么?
3
观测效应是否反映了真实的总体效应?
• 第二类: 零假设 ( β)不真 ,接受零假设,也就是说,无法测 出真实的差别。 – 犯二类错误的可能性(即 β), 取决于效应的大小和样 本量 – 检验效能= 1- β
18
选择 接受 H0 拒绝 H0
显著性检验的选择
H0 成立
正确接受
结果 HA 成立
错误接受(第二类错误, β)
错误拒绝(第一类错误,
统计学的基本概念 – 样本量与检验效能
临床试验课程 汕头大学医学院 2011年10月28~29日
Marcel Wolbers 越南牛津大学临床研究中心
1
重温统计学的基本概念(针对连续性变量)
- 点估计
- 标准误和可信区间 - 假设检验, p值, 显著性水平和效能
2
例子
• 随机对照临床试验
– 一种降压药与安慰剂的比较 – 主要指标:随机分配后一个月时病人收缩压与之前基础水平的差值 – 随机分配病人到每个组,每组 n=100 (总数为:N=200)
n
21 2
Δ 指的是标准化的目标效应大小:
33
例子
• RCT
– 比较降压药与安慰剂的试验 – 主要指标: 随机分配后一个月时血压下降值 (= 服药的日期) – 假定:
• 两组数据接近正态分布,并且差值已知σ=10 mm Hg • 需要有有效的检验效能来检测干预组中比安慰剂组大于5 mm Hg的下
• 量化估计疗效的准确性 • 定义为:当随机对照试验重复很多次时估计疗效的标准差
• 公式: x2 x1 ~ N (true effect, S.E.2 )
• 仅根据一次随机对照试验就可以得出:
数学公式:
S.E.
2 n
8
观察到的疗效分布图
True (population) effect
– α =0.05, β=0.20 (z1-α/2+z1- β)2= 7.85 – α =0.05, β=0.10 (z1-α/2+z1- β)2=10.51
2/n
32
简化的样本量计算公式 (连续性结果)
• 显著性水平为5%, 检验效能为80% 每组样本量n 为
n
16 2
• 显著性水平为5%,检验效能为90% 每组样本量n为
13
假设检验的步骤 I
1. 建立无疗效的零假设
– H0: 干预与对照效果一样 (“无差异”, 真实疗效=0)
– HA: 干预有效果, 真实疗效≠0 (对立的假设, 双侧)
2. 进行随机对照试验和收集数据
– 在H0假设(即“无差异”)的前提下,比较实际疗效与预期疗效
14
假设检验步骤 II
3. 计算试验观察到的样本数据符合“零假设成立” 的可能 性(P值)
29
H0成立时,观察到的疗效分布
H0: 0 1 0
Critical value
S.E.= 2 n
2
2
0
z1 2 2 n
30
当H0或HA成立时,观察到的疗效分布
H0: 0 1 0
HA: 0 1
Critical value
S.E.= 2 n
S.E.= 2 n
Power 1
2
2
0
z1 2 2 n
z1 2 n
– 药A和B 价格低廉 – 药C 价格昂贵
• 进行了5个包含这3种药物和对照(安慰剂)的随机试验 • 主要的检测指标
– 一年内血脂水平 – 临床上确认的血脂下降均值(相对于安慰剂)
• 40 mg/dl或更多 对心脏病发作有重要保护作用 • 20-40 mg/dl 中等保护作用
20
试验结果- 如何分析?
31
适合连续性结果的样本量公式
• 当试验采用统计意义水平α和检验效能 1-β时,
0 z1 / 2 2 / n z1
n
2( z1 / 2 z1
( / )2
)2
• 备注
– n是组样本量; 总的来说, N=2n的病人量是必须的 – 样本量与δ/σ(标准化的效应大小)的平方成反比.