第十八章样本含量估计无论是调查研究还是实验性研究,医学研究大都是抽样研究,最终目的在于利用实际观测得到的样本信息推断未知的总体特征,即统计推断。
抽样研究设计时需要回答一个非常关键的问题:样本中包含多少个研究对象(人、动物、生物学材料等)才能既满足统计学要求,完成有效的统计推断,又照顾研究的可行性、伦理学等实际问题,从而最大限度控制研究成本和研究风险,提高研究效率。
这就是样本含量估计(estimation of sample size)。
本章将从统计推断的目的出发,介绍样本含量估计意义及常用的计算公式,并在此基础上介绍检验效能的估计(power analysis)。
第一节样本含量估计的意义及方法一、样本含量估计的意义由于抽样研究中抽样误差不可避免,样本统计量与其所对应的总体参数间总是存在一定差异。
因此,尽量减小抽样误差是提高统计推断精度的必然要求。
在总体变异性确定的条件下,样本中所含的研究对象数越多,抽样误差必然越小,样本统计量的稳定性肯定越高,总体参数的估计精度越好,假设检验中的检验效能(power=1- )亦会越高,从而避免出现假阴性的结论。
同时在实验性研究中,只有在研究对象数量足够大时才能使随机分组更加有效,从而保证组间均衡性。
但在实际研究中,除了要考虑抽样误差外,还需考虑研究的可行性、结论的时效性、医学伦理以及非随机误差的影响等实际问题,并非研究对象数越多越好。
比如在改良肩周炎贴膏临床试验中,如果片面地追求大样本,研究中所需的人力、物力、财力等物质支持必然增大,研究的可行性下降。
由于需纳入更多病例,可能会延长产品研发周期,影响新药投产上市;若增加医院或临床实验中心参与该研究,又增加了组织协调的工作量和工作难度。
同时增加各种混杂、偏倚发生的机会,比如由于肩周炎发病、预后与季节、气候密切相关,临床病例接收时间太长,组内病例同质性差;测量仪器增多导致测量误差增大,观察疗效的医院、医生增多,研究结果的一致性降低等现实问题,使得试验结果难于分析或者难以合理解释,影响研究结论的科学性。
另外,由于所施加干预措施可能存在的不良事件反应尚属未知,让过多的临床病例面临风险,亦有悖医学伦理原则。
因此,恰当的样本含量应该是满足医学科研统计学要求,保证一定推断精度和检验效能的前提下的最少研究对象数。
二、样本含量估计的方法样本含量的估计方法目前主要有两种:一是公式法,可根据研究目的、设计类型、已知条件等选择合适的公式进行估算,是目前使用最广泛的方法。
二是查表法,统计学家利用公式法获得样本含量后编制成工具表,使用者只需根据已知条件查表即可获得相应的样本含量,省去了繁杂的计算过程,但较为局限。
本章将主要介绍公式法样本含量的估计。
第二节 调查设计中样本含量估计调查研究的目的在于描述健康相关状态、事件在研究当时某特定群体中的分布,并在此基础上通过不同群体分布的比较,探索可能的关联或影响因素。
但其主要目的仍在于描述分布,如考察某地菜农钩虫感染率、医学生的吸烟率、某地健康男性居民血红蛋白的含量等。
若研究方式为抽样研究,便需要利用已知的样本信息推断总体参数,如总体均数μ、总体率π 的估计等。
因此本节将根据所估计的参数不同,介绍样本含量估计的基本条件,及总体均数、总体率估计中的样本含量估计方法。
一、样本含量估计的基本条件采用公式计算样本含量,必须有一些先决条件和基本信息,下面以例18.1为例简单介绍总体参数估计中样本含量估计的基本条件。
例18.1 拟采用单纯随机抽样的方法调查某地区男性成年人群血红蛋白含量(g/L)的平均水平。
根据文献,中国男性成人血红蛋白含量为(140±30)g/L ,要求所获得允许误差不超过5g/L ,取05.0=α,问需要调查多少位该地区成年男性? 此研究为调查研究,目的在于利用抽样获得的样本均数X 估计该地区成年男性血红蛋白含量(g/L)的总体均数μ。
假定该地区成年男性血红蛋白含量X 服从正态分布,以文献中中国男性成人的血红蛋白含量信息进行替代(140μ=g/L ,30σ=g/L),则该地区成年男性的血红蛋白含量X ~N (140, 302)。
题意要求允许误差不超过5g/L ,α=0.05,可解释为样本均数X 与总体均数μ之间的差距(X δμ=-)不超过5g/L ,且X 落在135~145g/L 之间的概率为1-α=0.95。
由于总体服从正态分布,样本均数的分布亦服从正态分布,当抽样方式为单纯随机抽样,且总体为无限总体时,标准误X n σσ=,X 的分布记为2~(,)x X N μσ。
可用图18.1表示。
图18.1 样本均数的抽样分布示意图结合图18.1,根据正态分布的原理可得:2X Z nn αμσσ-== (18.1) 上式反推即可获得单纯随机抽样研究中总体均数估计中的样本含量公式:2/2Z n ασδ⎛⎫= ⎪⎝⎭ (18.2) 式中,σ为总体标准差;δ为允许误差;/2Z α为标准正态分布α下双尾Z 值。
如例18.1中 σ=30 g/L ,δ=5 g/L ,/20.05/2 1.96Z Z α==,代入式(18.2)得:21.9630138.35n ⨯⎛⎫== ⎪⎝⎭所以至少需要调查139人才能达到所要求的精度。
由公式(18.2)可知,在总体服从正态分布且为无限总体、抽样方式为单纯随机抽样的前提下,其所需基本信息包括:1. 置信度1-α 置信度越高,需要的样本含量越大,常取0.05α。
2. 允许误差(allowable error) 是指研究者要求的样本统计量与其对应的总体参数之间的最大差距,其既可以用绝对误差δ (X δμ=-或p δπ=-),也可以用相对误差ε来表示,其中X εμμ=-或p εππ=-,则绝对误差δεμ=或δεπ=。
根据前面章节置信区间的估计,δ即区间长度的一半。
允许误差越小,所需样本含量越大。
3. 总体变异度 常用总体标准差σ刻画,总体率估计中的σ=总体的变异程度越高,所需样本含量越大。
二、单纯随机抽样的样本含量估计 (一) 估计总体均数时的样本含量估计调查研究中利用抽样获得的样本均数X 估计总体均数μ。
例18.1即为估计总体均数时的样本含量估计,这里不再赘述。
需指出的是,式(18.2)适用于无限总体抽样时的样本含量估计,对个体数为N 的有限总体中进行单纯随机抽样时,需在式(18.2)计算出样本含量n 的基础上利用式(18.3)进行校正:1c n n n N=+ (18.3) 若抽样比n N 很小,如小于0.05或0.1,这种校正可省略。
同时,实际工作中总体标准差σ常常未知,可首先通过小规模预调查获得的样本标准差S 估计σ。
此时,若继续采用式(18.2)估计样本含量,往往造成样本量的低估,尤其当样本量较小时,实际上难以达到总体均数估计的精度要求。
需用式(18.4)进行校正:2/2t S n αδ⋅⎛⎫= ⎪⎝⎭(18.4) 式(18.4)中/2t α表示自由度1n ν=-时t 分布界值,在估计出样本含量前其未知,可先用/2Z α计算出初步的样本含量(1)n ,并以自由度(1)(1)1v n =-获得(1)/2,t αν,代入式(18.3),求出更近似的(2)n ,依次类推,直至样本例数稳定。
但在实际应用中,如果样本估计量较大(如50n ≥),为方便起见可无需校正。
如例18.1中,若根据前期预调查得该地血红蛋白含量标准差s =30g/L ,其余条件不变,问需要调查多少该地区居民?根据/2Z α计算出的初步样本含量(1)=139n ,0.05/2,138 1.9773t =,带入式(18.4)得: 2(2) 1.977330140.71415⨯⎛⎫==≈ ⎪⎝⎭n 以(2)=141n ,0.05/2,140 1.9771t =,代入式(18.4)得(3)140.7141n =≈,(2)(3)n n =,可停止计算。
故至少需要调查141位成年男性。
(二) 估计总体率时的样本含量估计调查研究中常需利用抽样获得的样本率p 估计总体率π,由第十章的学习可知,当n 较大,π和1π-均不太小,如n π和(1)n π-均大于5时,样本率p 的分布亦近似服从正态分布,记为2~(,)p p N πσ,其中p σ=正态分布原理,由式(18.1)反推可得:2/2(1)Z n αππδ⎛⎫=⋅- ⎪⎝⎭ (18.5) 式中,π为总体率,其它符号含义同前。
总体率未知时,可取50%π,以使(1)ππ-达到最大,算得样本含量也最大,从而保证总体率推断的精确性。
例18.2 研究某地菜农钩虫感染率,要求允许误差不超过2%,取05.0=α,需调查多少人?根据题意,05.0=α,/2Z α=0.05/2Z =1.96,δ=2%=0.02。
总体率未知,取0.50π代入式(18.5)得: 22/2 1.96(1)0.5(10.5)24010.02Z n αππδ⎛⎫⎛⎫=⋅-=⨯⨯-= ⎪ ⎪⎝⎭⎝⎭式(18.5)同样仅适用于无限总体抽样的样本含量估计,对有限总体进行抽样时,仍需按式(18.3)进行校正。
同时,当总体率π接近0或1时,如π>70%或π<30%,应用式(18.5)会有偏差,此时可对π作以弧度为单位的平方根反正弦变换,再利用正态分布原理获得样本含量的估计公式: 2n ⎡⎤= (18.6) 此外,亦可使用基于Poisson 分布的正态近似样本含量估计等,读者可根据上述理论自行推导,或参考其它书籍,这里不再赘述。
三、其它概率抽样方法的样本含量估计概率抽样方法不同,样本含量估计方法各异。
对系统抽样而言,抽样间隔不同,其抽样误差也不同,故系统抽样尚无统一的方法估计样本含量。
但如果研究的变量与总体中个体的编号无确定的上升、下降或周期性变化的关系,系统抽样的抽样误差应小于单纯随机抽样,可参照单纯随机抽样所计算的样本含量。
这里简单介绍分层随机抽样和整群抽样中样本含量的估计。
(一) 分层随机抽样样本含量的估计抽样方式为分层抽样研究中,若总体为无限总体,可在估计各层总体参数2i σ或i π基础上,以各层例数在总体中所占比例i W 为权重进行加权平均,获得总体方差(22i i W σσ=⋅∑)或总体率(i i W ππ=⋅∑),再按式(18.2)或式(18.5)估计调查总例数。
若总体为有限总体,设总体例数为N ,共有L 层,每层例数为N i ,各层总体方差为2i σ(总体率的估计中2(1)i i i σππ=-),则调查总例数的估计公式为:22222222()i i ii i N w n N Z N ασδσ=+∑∑ (18.7)式中i w 为各层样本比例(sample fraction),即i i w n n =,余符号同前。
若按比例分配,则i i i w N N W ==;若进行最优分配,i i ii i w N N σσ=∑。