当前位置:
文档之家› 第四章 分层抽样(抽样调查理论与方法-北京商学院 李平)
第四章 分层抽样(抽样调查理论与方法-北京商学院 李平)
2 2
h
k
(Yhi Yh Yh Y )2 (Yhi Yh ) N h (Yh Y )2
2 h 1 i 1 k Nh
i 1 k Nh
h 1 i 1
k
2 ( N h 1) Sh N h (Yh Y )2 h 1 h 1
Var ( y ) Var ( y st ) 1 1 1 k 1 2 ( ) N h (Yh Y ) N n N N 1 h 1
1 是否会有 N h (Yh Y ) h 1
k 2 h
1 k y st Wh yh (或 N h y h ) N h 1 h 1 ~ 总体总和 Y 的无偏估计可选为:
k
(4.2)
~ Ny N W y y st h h N h yh st
h 1 h 1
k
k
(4.3)
估计量 y st 的方差为:
Var ( yst ) Var ( Wh yh )
16
2 3 4
3
6.5 21.5 57.5
1 产生这种结果的原因 3 k 3 在于对该总体的分层 2 2 N h (Yh Y ) 5(Yh 3) 10 不合理。可见合理的 h 1 h 1 k 3 1 2 分层对体现分层抽样 2 (1 Wh ) S h (1 ) Sh 57 的优点至关重要! 3 h1 h 1 N h 5 ( h 1, 2, 3) , Wh
不管那种抽样方法,如果总体总和的无偏估计可以像 (4.15)式那样写成样本总和的常数倍,那么这种样本(或估 计量)称为自加权的或等加权的。
按比例分配的分层抽样就是自加权的,它的有关总体平均数 估计以及估计量的方差计算与估计,上一节已经进行了讨论 2、最优分配 自加权的比例分配方法使得估计量呈现简单形式,并且 在直观上与实用上都使人们感觉到它的合理性与方便。但是 它没有回答是否在给定费用下能使估计量的方差达到最小或 对给定 y st 的方差大小时能使总费用达到最小。分层抽样中 的样本量在各层中分配力求使得上述问题得到解决,这样的 分配称为最优分配。
2 2
(4.12)
§2
比例分配及最优分配
简单随机抽样只需根据调查精度的要求与费用的限制来 确定抽样容量的大小。而分层抽样则提出另一个重要的问题 一旦确定 n ,又如何在各层中分配抽样容量 nh,其中有一些 问题需要考虑,比如在各层中各有精度的要求以及费用的限 制,由于各层具有各自的鲜明特点,其花费自然不同,因而 在样本容量的分配上必须带有经济观点。另一个重要因素是 由于 nh的不同而带来数据处理的困难。我们的样本量分配必 须尽可能地使估计量及其方差估计具有较简单的形式,从而 使数据汇总工作量趋小,做到省时省力。 1、比例分配 由于我们假设每层的单元数 N h 为已知,合理且自然的 想法是哪个层的单元数多则相应抽取的样本量也大。
第四章 分 层 抽 样 §1 分层抽样及估计量
简单随机抽样是最基本的抽样手段,在一些小型的抽样 调查中被人们采纳。所谓小型是指总体容量N 较小,当总体 容量N 较大时,不便采用简单随机抽样方法。这时,分层抽 样将起到作用。 根据调查的要求,将总体 N 划分为若干个子总体N 1 , N 2 , , N k(通常用总体或子总体的容量大小来表示总体或子 总体本身),实质上是将总体分为 k 层。独立地在各层中 进行抽样,称为分层抽样。如果在各层中的抽样都是简单随 机进行,则称为分层随机抽样,所得的样本称为分层随机样 本。 总体如何分层是一门学问。
k
2 sh N h ( N h nh ) n h 1 h k
(4.11) 注意到 y st是各层样本平均数的加权和,只要 N h , nh与N h nh 适当大,各层样本平均数都可正态近似,因此 y st 也可正态 近似,这样得到 Y 的 (1 ) 的近似置信区间为:
( yst u1 v ( y st ) , y st u1 v ( y st ) )
下面给出 y st 的近似置信区间
1 1 2 2 2 S h 是未知的 )Wh S h 中的 由于 Var ( yst ) ( Nh h 1 nh
k
1 nh 2 ( yhi yh )2 用该层中的样本方差进行估计,即 sh nh 1 i 1
于是
1 1 1 2 2 v ( yst ) ( )Wh sh 2 Nh N h 1 nh
1 Yi N i 1
N
1 Yhi N h 1 i 1
k
Nh
N Y
h 1
k
h h
W hYh
h 1
k
(4.1)
从盒子模型观点看,这是一个大盒子装有 k 个小盒子,第 h 个小盒子中的单元值是Yh1 , Yh 2 , , YhN h,小盒子的平均数 2 是 Yh ,方差是 S h ,该小盒子在大盒子里所占的权为Wh ,分 层随机抽样是指从每个小盒子里按一定份额 nh(h 1,2, , k n1 n2 nk n )作随机无放回抽样。 由第三章知道, y h 是 Yh 的无偏估计量,因此,由(4.1)式 可知, Y 的一个无偏估计量自然地选为:
N Nh
h 1
k
第 h 层的单元标志值记为 Yhi ( i 1,2, , N h ) ,从该层抽 取的样本记为 yhi ( i 1,2, , nh ) ,第 h 层子总体的总体平均 ~ y h ,其和 ~h y 数为 Yh ,子总体之和为 Yh ,样本平均数记为
再记 Wh N h N ,表示第 h 层在总体中的权重,一般假定它 是已知的。 f h nh N h 表示 h 层中的抽样比。
2 S h (Yhi Yh ) 2 ( N h 1) 2 sh ( yhi yh ) 2 ( nh 1) i 1 i 1 nh Nh
第 h 层层内方差 第 h 层样本方差
2、参数的估计量
假定我们想估计总体的平均数 Y ,获取的样本是分层 随机样本。将 Y 写为:
1 Y N
(4.9)
2 ( N N h ) Sh 呢?这种情 h 1
况的发生实质上意味着分层在精度上不如简单随机抽样。
N h (Yh Y )2 恰好表示各层之间差异平方和 其实,
h 1
k
1 N
2 2 ( N N h ) Sh (1 Wh ) Sh 在一定程度上表示各层内 h 1
k
k
2 Wh S h 因此第二项 表示考虑有限总体修正因子引起的 N h 1 方差减少。 k
如果不用分层抽样,而用大盒子中的简单随机抽样的平均 数来估计总体平均数,此时方差为: 1 1 2 Var ( y ) ( ) S n NN N
而 ( N 1) S (Yi Y ) (Yhi Y )2
h 1
k
k
差异的平方和。
如果分层使得各层的中心离总体中心比较近,而各层中单元 又比较分散,那么不利于分层抽样的“不幸现象”就会发生。
下面构造这样的一个例子:
例4.1 假设总体 N=15, 分层k=3,数值如下表
h
1 2 3
i
1
2
3
4
5
Yh
Y
2 Sh
0 -1
-2
-1 -2
-3
2 3
4
5 6
5
4 9
h 1
k
由于各个小盒子的抽样过程是相互独立的,故各个 yh相互 独立,由独立随机变量之和的方差计算公式,有
1 1 2 ) Wh2 Sh Var ( yst ) W Var ( yh ) ( Nh h 1 nh h 1
2 h
2 2 k Wh2 Sh Wh2 Sh nh Nh h 1 h 1 2 2 k k Wh2 Sh Wh S h (4.4) nh N h 1 h 1 2 k Wh2 S h (4.4)式的第一项 恰好为从各个小盒子里随机有放 nh h 1 回抽样时得到的 y st的方差计算公式,而现在是无放回抽样 k
1 1 k 因此 Var ( y ) Var ( yst ) ( ) Wh (Yh Y )2 0 n N h 1
(4.8)
也即至少当 nh n Wh时,分层抽样的误差比简单随机抽样 的误差小。相差的部分几乎恰恰只与各层之间的差异平方 和有关。分层抽样的优点在于通过各层的独立抽样过程而 减少了由于各层之间的差异所造成的误差。 设想一下,如果各小盒子之间没有任何差异,那么各小 盒子的平均数 Yh应当一致,此时各层之间的差异平方和为零 因而分层抽样与简单随机抽样的误差相同,也就是说,分层 与不分层并无不同之处。这个事实告诉我们,为了取得分层 的效果,必须注意层与层之间要有较显著的差异。当然并不 是讲在总体中分辨不出各有特色的层时就一定不用分层抽样 不过那时的得益在于组织管理上的方便而不表现在精度上。 上述讨论是在所有的 N h都较大的假设下,利用近似式 (4.6)进行的,如不考虑近似因素,仍设nh n Wh,则有
nh 1 yst Wh yh ( nh h 1 h 1 n
k
k
1 k nk yhi ) n yhi y i 1 h 1 i 1
(4.15)
nk
(4.14)
N yst N yst N y y n
显然估计量具有相当简洁的形式。
根据这个原则,可以使每层的样本量 nh与该层的大小N h 成比例,即: nh N h n N 或 f h f (h 1, 2,, k ) (4.13)
采用这种分配样本量的方法称为比例分配。
我们知道,简单随机抽样中总体的每一个单元入样的概 率即为抽样比 f n N 。因而,按比例分配而在各层中进行 简单随机抽样的分层方法实际上使总体中任何一个单元入样 的概率都为 f n N ,对于这种等概率抽取的样本,此时: