抽样技术第4章_整群抽样
另一种方法是按一定方法抽取一定数量的 居民楼,譬如说15栋或20栋楼,然后对这 些楼中的每个住户都进行调查,根据调查 结果来估计整个居民区的电信宽带用户比 例。
4.1 概述
一、整群抽样(cluster sampling)的定义: 由若干个基本单元所组成的集合称为群。将总体 划分为若干群,然后以群为抽样单元,从总体中随 机抽取一部分群,对抽中的群中的所有基本单元进 行调查的一种抽样技术。 严格来讲也称为单阶整群抽样。
第四章 等概率整群抽样和多阶 段抽样
一个新建的居民区由近百栋居民楼组成, 其中住户总数达数千户。欲用抽样调查方 法估计该居民区现有的电信宽带用户比例, 考虑以下两种抽样方法。 一种是用简单随机抽样抽取一定样本量的 住户,譬如说一共抽取n=250户进行调查, 然后对全居民区的住户的电信宽带用户比 例进行估计。
2
1 f 1 N N ( ) Yi Y 2 n N 1 i 1 v(Y) v(NM y ( NM ) 2 v( ) ) y
2 1 f 1 n 2 N ( ) ) y i y 且E( v(Y) V(Y)。 n n 1 i 1 2
y 1 V(y V( ) 2 V(y ) ) M M 1 f 1 N 1 f 1 N (Yi Y 2 ) (Y i Y 2 ) 2 nM N 1 i 1 n N 1 i 1 1 f M N 1 f 2 2 ( Y i Y) nM S b nM N 1 i 1
1 N 2 Si N i 1
1 n 2 si n i 1
二、估计量: 1.群规模相等时,对群的抽样采取简单随机抽样,将群 和Yi作为群的指标值
则总体看作Y1, ,YN 样本:y 1, ,y n Y的估计为: y Y
y
i 1
n
i
n 1 f 2 1 f 1 N V(y ) Sy (Yi Y 2 ) n n N 1 i 1
y
i 1 j1
n
M
nM 样本的群间方差 : M n s ( y i y )2 n 1 i 1
2 b
样本的群内方差 : s
2 w n M 1 ( y ij y i )2 n( M 1) i 1 j1
S
2 w
N M 1 ( Yij Y i )2 N( M 1) i 1 j1
1.在大规模抽样调查中,常常没有或很 难编制出包括总体所有次级单元在内的抽 样框,而整群抽样则不需要编制庞大的抽 样框。 当总体单元自然聚合成群(例如:住户、 学校)时,整群抽样比简单随机抽样或系 统抽样更容易。
2.在样本单元数相同的条件下,整群抽样与简 单随机抽样相比,样本单元的分布相对较集中, 虽然样本的代表性较差,但调查组织实施过程更 加便利,同时还可以大大地节省调查费用。因此, 实际工作中,在权衡费用和精度之后,有时宁可 适当增加一些样本单元数,也采用整群抽样方法。 如果对于调查变量而言,群内单元差异较大,而 不同群的差异较小,整群抽样策略比简单随机抽 样的统计效率更高。(例如为估计性别比采用按户 的整群抽样)。
样本第i群的群和y i
y
j1 n i
M
ij
总体群和的均值 Y
N M
Y
N
ij
样本群和的均值 y
y
i 1
n
ij
总体均值 Y
Y
i 1 j1
NM 总体的群间方差 : M N S ( Y i Y )2 N 1 i 1 总体的群内方差 :
2 b
样本均值 y
y 1 1 f 1 n v(y v( ) 2 v(y ) ) (y i y 2 ) 2 M M nM n 1 i 1 1 f M n 1 f 2 2 ( y i y) nM sb nM n 1 i 1 是V(y )的无偏估计。
(1)Y的估计为 : Y y且E( y ) Y。 1 f 1 N 1 f 2 V( ) y ( i Y 2 Y ) Sb n N 1 i 1 nM M N 其中S ( ) Yi Y 2 N 1 i 1
2 i 1 j1 N i 1 j1 N 2 Yij Y ) M(Y i Y 2 ( ) i i 1 j1 i 1 M N M N M
yi
s
2 i
n 8, N 315 1 Y y n M 2 sb n 1
n
y
i 1
n
i
98.17
i 1
2 (y i y) 928.6648
1 f 2 (y) v sb 18.8558 nM (y) (y) 4.3423 s v Y的置信度为95%的置信区间为: y z (y), z (y) y 0.25 s 0.25 s 即89.66, 106.6变量,若群内单元有趋同性,则整 群抽样的统计效率比简单随机抽样低, (这正是通常遇到的情况),但对此项效 率的损失可通过增加群的抽取个数来弥补;
通常无法提前知道调查总样本量,因为在进行
调查前,我们通常不知道一个群内到底有多少 个单元; 调查的组织比其他方法复杂; 方差估计可能比简单随机抽样更为复杂。
3.整群抽样的随机性体现在群与群间不 重叠,也无遗漏,群的抽选按概率确定。 4.如果把每一个群看作一个单位,则整 群抽样可以被理解为是一种特殊的简单随 机抽样。 5.整群抽样也是多阶段抽样的前提和基 础。
6.整群抽样有特殊的用途。有些现象的研究, 如果直接调查作为基本单元的个体,很难说明问 题,必须以一定范围所包括的基本单元为群体, 进行整群抽样,才能满足调查的目的。如人口普 查后的复查、要想估计出普查的差错率,只有通 过对一定地理区域内的人口群体作全面调查才行。 类似地诸如人口出生率、流动率等调查都需要采 用整群抽样。 7.整群抽样要求分群后各群所含次级单元数目 应该确知,否则会给抽样推断带来不便。
1、取决于精度与费用之间的平衡 。 2、从抽样实施的组织管理等因素来考虑。 群的规模选得大,则费用省而精度差;群的 规模选得小,则精度高而费用大。 因此:需要选择最优的群数量和大小,同时使总 费用最小。这方面除了依靠实践经验外,还可对 假定的方差函数与费用函数作理论上的最优选择。
五、整群抽样的特点
2 b
1 f 1 n 1 f 2 v( ) y ( i y 2 y ) sb n n 1 i 1 nM 且E( v( ) V( )。 y ) y ( 2)Y的估计为 : Y NM y且E( Y ) Y。 1 f 1 N V(Y) V(NM y ( NM ) ) ( ) Yi Y 2 n N 1 i 1
i 1 n
群间方差
Sb
2
N 1
M 2
sb
2
n1
M
方差
2
S2
2
( Yij Y)
i 1 j1
N
NM 1
2 2
s2
(y ij y 2 )
i 1 j1
n
nM 1
并且s w 是S w 的无偏估计,s b 是S b 的无偏估计。
总体离差平方和的分解: (Yij Y Yij Y i Y i Y 2 ) ( )
yp
y
i 1 j1
n
M
ij
a
i 1
ai
M
p
i 1
例:在一次对某寄宿中学在校生零花钱的调查中,以宿 舍作为群进行整群抽样。每个宿舍有6个学生。用简单 随机抽样在全部315间宿舍中抽取8间宿舍。样本数据 如下:
宿舍1 宿舍2 学生1 学生2 学生3 58 83 74 91 83 79 宿舍3 123 89 94 宿舍 4 99 105 98 宿舍5 宿舍6 宿舍7 宿舍8 110 99 132 111 100 116 120 115 117 96 80 63
( 3)P的估计 : 总体小单元的指标值Yij只能取 0或1。 YP
Y
i 1 j1
N
M
ij
NM
A
i 1
N
i
NM
n i 1 i
i 1 n
N
Ai N
M
n
P
i 1
N
i
N
i
nM nM n n E( y ) Y E(p ) P即p是P的无偏估计。 1 f 1 N V(p) (Y i Y 2 ) n N 1 i 1 1 f 1 N 2 ( Pi P) n N 1 i 1 1 f 1 n v(p) (y i y 2 ) n n 1 i 1 1 f 1 n 2 (p i p), E( v(p) V(p)。 且 ) n n 1 i 1
学生4
学生5 学生6
82
66 87
111
101 69
109
79 80
107
129 90
87
99 124
99
107 105
99
106 120
130
105 86
试估计该学校平均每个学生每周的零花钱,并给出置信 度为95%的置信区间。
解:
宿舍1 学生1 学生2 学生3 学生4 学生5 学生6 58 83 74 82 66 87 75.00 125.6 0 宿舍2 91 83 79 111 101 69 89.00 233.6 0 宿舍3 123 89 94 109 79 80 95.67 299.0 7 宿舍4 99 105 98 107 129 90 104.6 7 177.8 7 宿舍5 110 99 132 87 99 124 108.5 0 287.5 0 宿舍6 111 100 116 99 107 105 106.3 3 42.27 宿舍7 120 115 117 99 106 120 112.8 3 72.57 宿舍8 96 80 63 130 105 86 93.33 527.8 7