当前位置:文档之家› 抽样技术 7 不等概率抽样

抽样技术 7 不等概率抽样


汉森-赫维茨估计量估计给出总体总量的估计, 如果对总体均值估计可按下公式:
假设M 0是总体规模大小的度量

Y HH

Y HH 1 n yi M 0 M 0 n i 1 zi

n yi 1 2 v(Y HH ) 2 ( Y ) HH M 0 n(n 1) i 1 zi
6
放回不等概抽样
PPS抽样:有放回的不等概抽样
设总体包含N 个单元,M i是第i个单元的大小或规模的度量, i 1, ,N,总体的总规模度量为:M 0 M i
i 1 N Mi 则第i个单元的抽选概率为:Z i 0, Z i 1 M0 i 1 N
即抽样概率正比于规模度量,一次抽完后再放回,进行下 一次抽取。独立地进行这样的抽样n次,共抽到n个单元 (有可能重复,只调查一次,但计算时按重复数计算)。
因为是放回抽样,所以是独立样本,数理统计的结 论可以在这里应用。
对上述结论加以说明:
独立同分布样本 抽中概率 新变量 t
n
y1 z1 y1/ z1
i
y2 z2 y2 /z2
… … …
yn zn yn/zn
样本均值 t
t
i 1
n
1 n yi ˆ Y HH n i 1 zi
ˆ )的无偏估计量为: V ()即 t V (Y HH
i
mi
yi
i
mi
yi
i
mi
yi
1*
2 3 4 5 6 7 8
38.23
13.70 0.75 2.85 2.00 5.00 10.80 2.00
10926
1024 13 30 1102 600 290 430
10
11 12 13 14 15 16 17
5.50
15.00 7.00 15.00 12.30 3.86 15.80 9.00
令M max M i
1i N

每次从 1,N 中简单随机地抽取一随机数a, 同时再独立从 1,M 中简单随机地抽取一随机数b。 若b M a , 则第a个单元入样,若b M a则重抽。 第i个单元被抽中的概率: 1 Mi zi =p{a=i,b M i }=p{a=i} p{b M i }= . N M 显然,zi M i
放回不等概率抽样实施方法 1.代码法
单元i 单元大小M i 1 2 N M1 M2 MN
代码 1, 2, M 1 M 1 1,M 1 2, ,M 1 M 2
M
j1
N 1
j
1, , M j 2, M j MN M0
j1 j1
N 1
N 1
累计 6 151
代码 1~6 7~151
3
4 5 6 7
1.5
13.7 7.8 15 10
15
137 78 150 100
166
303 381 531 631
152~166
167~303 304~381 382~531 532~631
8
9 10
3.6
6 1.1 =73.8
36
60 11 738
667
1900
864 17 1045 220 4600 2370 940
19
20 21 22* 23 24 25 26
1.50
8.00 28.42 9.01 0.75 5.00 28.43 9.97
10
80 13672 3845 480 311 9284 842
9
8.81
992
18*
21.00
640
27
5.20
727 738
632~667
668~727 728~738
假设在[1,738] 中等概产生第一个随机数为354,再在[1,738]中产生第二 个随机数为553,最后在[1,738]中产生第三个随机数为493,则它们所对 应的第5,7,6号单元被抽中。
例:假设有10个乡,每个乡的村庄数不同,按pps抽3个乡 乡 1 2 3 村庄数Mi 累计 5 5 28 26 33 59 代码 1~5 6~33 34~59 结合一下整群抽样、 多阶段抽样
不等概率抽样的特点
1、凡需使用不等概率抽样的场合,必须提供总体单
元的某种辅助信息。 例如:每个单元的“大小”度量Mi。注意:比估计 和回归估计是估计方法用到了辅助信息,本章是抽 样方法用到辅助信息.
2、不等概率抽样的主要优点是由于使用了辅
助信息,提高了抽样策略的统计效率, 能 显著地减少抽样误差。
i 1 2 3 4 5 6 7 8 9 10
mi 15 23 9 29 8 31 24 29 13 19
yi 75 134 37 152 45 185 133 173 74 87

i 11 12 13 14 15 16 17 18 19 20
mi 40 32 17 26 11 36 25 5 38 42
95422 75 56163 2 134 56163 2 177 56163 2 [( ) ( ) 2 ... ( ) ] 30 29 15 9542 23 9542 30 9542 2806070 ˆ ) 1675 v(Y (头) HH
例5.2:某部门要了解所属8500家生产企业当月 完成的利润,该部门手头已有一份去年各企 业完成产量的报告,将其汇总得到所属企业 去年完成的产量为3676万吨。考虑到时间紧, 准备采用抽样调查来推算当月完成的利润。 根据经验,企业的产量和利润相关性比较强, 且企业的特点是规模和管理水平差异比较大, 通常大企业的管理水平较高些,因此采用与 去年产量成比例的PPS抽样,从所属企业中抽 出一个样本量为30的样本。
不等概率抽样的分类
放回不等概抽样:按照总体单元的规模大小来确定在每次抽 中的概率。抽取后放回总体,再进行下一次抽样,每次抽 样都是独立的。这种抽样称为放回不等概抽样(sampling with probabilities proportional to sizes,简称PPS抽样) • 不放回的不等概抽样:每次在总体中对每个单元按入样概 率进行抽样,抽出的样本不再放回总体,因此,在抽取了 第一个单元后,余下的单元再以什么概率被抽取就较复杂。 这种抽样不是独立的,无论是抽样方法还是方差估计,都 要比放回抽样繁复得多。不放回抽样通常称为πPS抽样。
拉希里法抽样举例: 例5.1中,M=150,N=10.在[1,10],[1,150] 中分别产 生( i,m)如下: 第一次 (3,121) , M3=15<121, 舍弃,重抽 ; 第二次(8,50),M8=36<50, 舍弃,重抽 ;
第三次 (7,77) , M7=100>77, 第7号单元入样;
4
5 6 7 8
14
10 38 7 50
73
83 121 128 178
60~73
74~83 84~121 122~128 129~178
9
10
2
8
180
188
179~180
181~188
放回不等概率抽样实施方法 2.拉希里法(二次抽取法)(统计学家Lahiri最先提出): 设 M1, M2,…MN为单元的规模
样本单元被抽中的概率z1, ,zn , 则对总体总量Y的估计是
n 1 ˆ yi Y HH n i 1 zi ˆ ) Y (1) E (Y HH N Yi 1 ˆ (2)V (YHH ) Z i ( Y ) 2 n i 1 Zi n yi ˆ 2 1 ˆ ) ˆ )的无偏估计。 (3)v(Y ( YHH ) 是V (Y HH HH n(n 1) i 1 zi
第四次(5,127),M5=78<127, 舍弃,重抽 ; 第五次 (4,77), M4=137>77, 第4号单元入样; 第六次(9,60),M9=60≥60, 第9号单元入样; 因此第4,7,9号单元被抽中。
放回不等概率抽样对总体特征的估计 三、Hansen-Hurwitz(汉森-郝维茨)估计量及其性质:
yi 258 186 69 156 49 221 145 33 288 304
i 21 22 23 24 25 26 27 28
mi 19 26 37 21 7 43 18 30
yi 124 160 215 104 49 336 96 177
其中第2、19号被抽中两次
解:根据题中所给资料,n=30,M0=9542, 利用汉森-郝维茨估计量,则有:
Y HH 1 n yi M 0 n 1 zi n yi 1 mi
n
9542 75 134 177 ( 2 ... ) 56163(头) 30 15 23 30
2 n n y M yi ˆ 2 1 2 i 0 ˆ ) ˆ v(Y ( Y ) = ( YHH ) HH HH n(n 1) i 1 zi n(n 1) i 1 mi
不等概率抽样概述
2、抽样单元在总体中所占的地位不一致:例 如:要反映某小麦品种的优良情况,以村作 为抽样单位,但各村的种植面积不同,一些 种植面积大的村庄在抽样中是否被抽中对推 断总体的结果有很大影响 ,所以让“大单元” 被抽到的概率大,“小单元”被抽到的概率 小,这样能够大大提高样本的代表性,减少 抽样误差。
在PPS抽样中,赋予每个单元与Mi相等的代码 数,将代码数累加得到M0,每次抽样都等概产 生一个[1,M0]之间的随机数,设为m,代码m 所对应的单元被抽中。
例5.1 设某个总体有10个单元,相应的单元大小及其代码 数如下表,在其中产生一个n=3的样本。
i
1 2
Mi
0.6 14.5
Mi*10
6 145
相关主题