当前位置:文档之家› 抽样调查样本量的确定_侯志强

抽样调查样本量的确定_侯志强

新视角108 经济理论研究抽样调查样本量的确定侯志强1,2 吴启富3(1.北方工业大学,北京100041;2.中国人民大学统计学院,北京100872;3.首都经济贸易大学统计学院,北京100026)摘要:样本量确定是抽样调查中的一个重要内容。

确定样本量需要综合考虑费用与精度。

抽样方式也是影响样本量的一个重要因素。

简单随机抽样估计总体比例确定样本量需要同时考虑两个精度要求,即估计量方差上限与估计量离散系数上限。

分层随机抽样的样本量还受各层样本量分配方式的影响。

复杂抽样的样本量需要借助抽样设计效应才能计算。

样本量经过调整后才能满足实际调查的需要。

关键词:抽样调查;样本量;费用;精度;设计效应一、引言抽样调查是按照随机原则从总体中抽取部分个体进行观察并据此对总体参数作出一定可靠程度推断的科学。

抽取个体的数量称为样本量。

在一定抽样方式下,样本容量越大,估计精度就越高,所需费用也就越大。

因此,样本量受费用与精度的双重制约。

简单随机抽样样本量的确定是其它抽样方式样本量确定的基础。

在简单随机抽样中,经常需要估计几个总体比例,有些总体比例较大,有些则较小,但许多人总是根据估计量方差上限这个唯一的精度要求确定所谓的“保守”样本量,殊不知当所要估计的总体比例很小时,这个“保守”的样本量根本谈不上“保守”。

本文试图解决这个问题,并探讨其它抽样方式下样本量的确定问题。

二、简单随机抽样样本量的确定在简单随机抽样下,若给定费用要求,则可通过费用函数确定样本量。

通常的费用函数为C T =c 0+c 1n (1)其中,C T 表示总费用,c 0表示固定费用,c 1表示调查一个样本单元的平均费用,n 表示样本量。

那么,样本量为n =C T -c 0c 1 (2)通过式(2)可以确定样本量的上限,即总费用所允许的最大样本量,记为n U 。

简单随机抽样的样本量还可通过精度确定,通常规定估计量方差的上限。

例如,已知总体方差为 2,需估计总体均值X —,其简单估计量为样本均值x —,则在重复抽样条件下,估计量方差为D (x —)= 2n (3)若要求估计量x —的方差不许超过常数V ,则有2n≤V (4)从而样本量满足n ≥ 2V (5)通过式(5)可以确定样本量的下限,即精度所允许的最小样本量,记为n L 。

当n L ≤n U 时,样本量可取n L 与n U 之间的任何值;当n L >n U 时,必需认真权衡费用与精度,若费用更重要,则取n U ;否则,取n L。

若需要估计总体比例P ,则其简单估计量为样本比例p ,在重复抽样条件下,估计量方差为D (p )=P (1-P )n (6)若要求估计量P 的方差不许超过常数V ,则有P (1-P )n≤V (7)从而样本量满足n ≥P (1-P )V (8)容易知道,P (1-P )在P =0.5时取到最大值0.25,从而可得一个“保守”的样本量n a =0.25V (9)许多人正是根据式(9)来确定所谓的“保守”样本量,但对于较小的总体比例P ,这个“保守”样本量从估计量离散系数的角度看根本谈不上“保守”。

详述如下:已知估计量p 的离散系数为C V (p )=D (p )P =1-Pn P (10)从式(10)可以看出,当n 取“保守”的样本量n a 时,随着总体比例P 从1到0变化,估计量的离散系数C V (p )逐渐增加。

不难想象,当P 小到一定程度时,C V (p )将大到不能容忍的程度。

一个自然的修正方法是:除根据估计量的方差上限确定样本量外,再根据估计量的离散系数上限确定样本量,然后取两者中较大者。

设最小的总体比例P =P L ,限定估计量p 的离散系数不许超过常数C 。

则根据式(10),可得另一个“保守”的样本量n b =1-PC 2P L (11)这样,取这两个“保守”样本量的较大者,即n =m a x (n a ,n b ) (12)新视角经济理论研究109 则可同时满足估计量方差上限与估计量离散系数上限这两个精度要求。

当总体比例P 特别小且又得不到较可靠的估计p 时,利用式(9)或式(11)计算的样本量不太令人满意,这是因为n a 对于p 的波动非常敏感,p 的较小波动会导致n a 的较大波动。

逆抽样方法可以解决这个问题。

逆抽样方法要求事先确定一个较小的正整数m (m 越大,估计精度就越高),然后进行简单随机抽样,直到抽中m 个具有所考虑特征的单元为止。

设此时样本量为n ,容易知道,n 是一个随机变量,且近似服从负二项分布,其期望为E (n )=mP (13)三、分层随机抽样样本量的确定在分层随机抽样中,由于各层的总体方差不同,单位调查费用也不同,所以,各层样本量的分配既影响总费用又影响估计精度。

在样本量一定的情况下,要使估计量方差达到最小,可以证明各层的样本量应为n h =n W h S h c h∑L h =1W h S h c h (h =1,2,…,L ) (14)其中,h 为层的编号,L 为层的个数,n h 为第h 层的样本量,n 为总样本量,W h 为第h 层的总体单位数占各层总体单位数之和的比例,S h 为第h 层的标准差,c h 为第h 层每调查一个单位的平均费用。

假设总费用函数为C T =c 0+∑Lh =1n h c h (15)则将式(14)代入式(15)可解得总样本量为n =(C T -c 0)W h S h c h∑Lh =1W h S h c h (16)式(16)所确定的样本量既能满足总费用要求,又使得估计精度最高。

四、复杂抽样样本量的确定复杂抽样的估计量方差通常不容易用常规方法导出,因此,样本量就不能用常规方法得到。

事实上,对于复杂抽样,常采用下式计算样本量n c =n ·d e f f (17)其中n c为复杂抽样的样本量,n 为相同精度下简单随机抽样的样本量,d e f f 为复杂抽样的设计效应,其定义为d e f f =所考虑复杂抽样估计量的方差相同样本量下简单随机抽样估计量的方差d e f f 通常采用经验法或历史数据法等估计。

以美国的C P S (C u r r e n t P o p u l a t i o n S u r v e y )为例说明复杂抽样样本量的确定过程。

C P S 抽样设计极其复杂。

其主体部分是分层两阶段抽样,第一阶段采用分层P P S 抽样抽取初级抽样单元(P S U ),第二阶段采用整群系统抽样抽取最终抽样单元(U S U )。

当实际产生的U S U 过大时,还需要进行第三阶段抽样。

C P S 对全国失业率估计的精度要求是离散系数不许超过1.8%。

假定全国失业率的下限P L =5%则根据式(11)可以确定简单随机抽样的样本量n b =58642人,即需调查58642个经济活动人口。

按每户两个经济活动人口折算,共需调查29321户家庭。

根据历史数据,d e f f 值在1.3左右,因此,C P S 的样本量应为29321×1.3=38118户。

五、样本量的调整抽样调查不可避免存在无回答现象,所以,实际调查中,必须对上述样本量进行调整。

调整公式为调整后样本量=调整前样本量有效回答率在C P S 中,假如有效回答率为75%,则调整后样本量应为50824户,这个数字与实际调查的样本量5万户十分接近。

六、结论样本量的确定过程本质上是费用与精度的权衡过程。

在简单随机抽样需要估计多个总体比例时,对于较大的总体比例,宜用估计量方差上限确定样本量,对于较小的总体比例,宜用估计量离散系数上限确定样本量,然后取这两个样本量中的较大者作为调查的样本量。

分层随机抽样的样本量还受各层样本量分配方式的影响。

复杂抽样的样本量等于相同精度下简单随机抽样的样本量乘以复杂抽样的设计效应。

实际调查中必须按照有效回答率对样本量进行调整。

参考文献:[1]孙山泽.抽样调查[M ].北京:北京大学出版社.2004.2.[2]倪家勋主译,孙山泽校译.抽样调查[M ].北京:中国统计出版社,1997.10.[3]冯士雍,倪加勋,邹国华.抽样调查原理与方法[M ].北京:中国统计出版社,1998.3.[4]金勇进,蒋妍,李序颖.抽样技术[M ].北京:中国人民大学出版社,2002.6.[5]杜子芳.抽样技术[M ].北京:中国统计出版社,2004.11.[6]W i l l i a mG .C o c h r a n ,《S a m p l i n g T e c h n i q u e s 》[M ].3r d e d i -t i o n ,J o h n W i l e y &S o n s ,1977.[7]U .S .C e n s u s B u r e a u a n d B u r e a u o f L a b o r S t a t i s t i c s ,C u r r e n tP o p u l a t i o n S u r v e y ,D e s i g n a n dM e t h o d o l o g y [J ],T e c h n i c a l P a p e r 63R V ,2002.3.作者简介:1.侯志强,北方工业大学统计学系讲师,中国人民大学统计学院博士,研究方向:抽样技术。

2.吴启富,首都经济贸易大学统计学院副教授,首都经济贸易大学硕士毕业,研究方向:经济统计。

相关主题