当前位置：文档之家› 抽样技术 7 不等概率抽样

抽样技术 7 不等概率抽样

汉森-赫维茨估计量估计给出总体总量的估计, 如果对总体均值估计可按下公式：
假设M 0是总体规模大小的度量

Y HH

Y HH 1 n yi M 0 M 0 n i 1 zi

n yi 1 2 v(Y HH ) 2 ( Y ) HH M 0 n(n 1) i 1 zi
6
放回不等概抽样
PPS抽样：有放回的不等概抽样
设总体包含N 个单元，M i是第i个单元的大小或规模的度量， i 1，，N，总体的总规模度量为：M 0 M i
i 1 N Mi 则第i个单元的抽选概率为：Z i 0, Z i 1 M0 i 1 N
即抽样概率正比于规模度量，一次抽完后再放回，进行下一次抽取。独立地进行这样的抽样n次，共抽到n个单元（有可能重复，只调查一次，但计算时按重复数计算）。
因为是放回抽样，所以是独立样本，数理统计的结论可以在这里应用。
对上述结论加以说明：
独立同分布样本抽中概率新变量 t
n
y1 z1 y1/ z1
i
y2 z2 y2 /z2
… … …
yn zn yn/zn
样本均值 t
t
i 1
n
1 n yi ˆ Y HH n i 1 zi
ˆ ）的无偏估计量为： V （）即 t V （Y HH
i
mi
yi
i
mi
yi
i
mi
yi
1*
2 3 4 5 6 7 8
38.23
13.70 0.75 2.85 2.00 5.00 10.80 2.00
10926
1024 13 30 1102 600 290 430
10
11 12 13 14 15 16 17
5.50
15.00 7.00 15.00 12.30 3.86 15.80 9.00
令M max M i
1i N

每次从 1，N 中简单随机地抽取一随机数a，同时再独立从 1，M 中简单随机地抽取一随机数b。若b M a , 则第a个单元入样，若b M a则重抽。第i个单元被抽中的概率: 1 Mi zi =p{a=i,b M i }=p{a=i} p{b M i }= . N M 显然，zi M i
放回不等概率抽样实施方法 1.代码法
单元i 单元大小M i 1 2 N M1 M2 MN
代码 1， 2， M 1 M 1 1，M 1 2，，M 1 M 2
M
j1
N 1
j
1，， M j 2， M j MN M0
j1 j1
N 1
N 1
累计 6 151
代码 1~6 7~151
3
4 5 6 7
1.5
13.7 7.8 15 10
15
137 78 150 100
166
303 381 531 631
152~166
167~303 304~381 382~531 532~631
8
9 10
3.6
6 1.1 ＝73.8
36
60 11 738
667
1900
864 17 1045 220 4600 2370 940
19
20 21 22* 23 24 25 26
1.50
8.00 28.42 9.01 0.75 5.00 28.43 9.97
10
80 13672 3845 480 311 9284 842
9
8.81
992
18*
21.00
640
27
5.20
727 738
632~667
668~727 728~738
假设在[1,738] 中等概产生第一个随机数为354，再在[1,738]中产生第二个随机数为553，最后在[1,738]中产生第三个随机数为493，则它们所对应的第5，7，6号单元被抽中。
例：假设有10个乡，每个乡的村庄数不同，按pps抽3个乡乡 1 2 3 村庄数Mi 累计 5 5 28 26 33 59 代码 1～5 6～33 34～59 结合一下整群抽样、多阶段抽样
不等概率抽样的特点
1、凡需使用不等概率抽样的场合，必须提供总体单
元的某种辅助信息。例如：每个单元的“大小”度量Mi。注意：比估计和回归估计是估计方法用到了辅助信息，本章是抽样方法用到辅助信息.
2、不等概率抽样的主要优点是由于使用了辅
助信息，提高了抽样策略的统计效率，能显著地减少抽样误差。
i 1 2 3 4 5 6 7 8 9 10
mi 15 23 9 29 8 31 24 29 13 19
yi 75 134 37 152 45 185 133 173 74 87

i 11 12 13 14 15 16 17 18 19 20
mi 40 32 17 26 11 36 25 5 38 42
95422 75 56163 2 134 56163 2 177 56163 2 [( ) ( ) 2 ... ( ) ] 30 29 15 9542 23 9542 30 9542 2806070 ˆ ) 1675 v(Y （头） HH
例5.2：某部门要了解所属8500家生产企业当月完成的利润，该部门手头已有一份去年各企业完成产量的报告，将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧，准备采用抽样调查来推算当月完成的利润。根据经验，企业的产量和利润相关性比较强，且企业的特点是规模和管理水平差异比较大，通常大企业的管理水平较高些，因此采用与去年产量成比例的PPS抽样，从所属企业中抽出一个样本量为30的样本。
不等概率抽样的分类
放回不等概抽样：按照总体单元的规模大小来确定在每次抽中的概率。抽取后放回总体，再进行下一次抽样，每次抽样都是独立的。这种抽样称为放回不等概抽样(sampling with probabilities proportional to sizes，简称PPS抽样) • 不放回的不等概抽样：每次在总体中对每个单元按入样概率进行抽样，抽出的样本不再放回总体，因此，在抽取了第一个单元后，余下的单元再以什么概率被抽取就较复杂。这种抽样不是独立的，无论是抽样方法还是方差估计，都要比放回抽样繁复得多。不放回抽样通常称为πPS抽样。
拉希里法抽样举例：例5.1中，M=150,N=10.在[1,10],[1,150] 中分别产生（ i,m）如下: 第一次 (3,121) , M3=15<121, 舍弃，重抽；第二次（8，50），M8=36<50, 舍弃，重抽 ;
第三次 (7,77) , M7=100>77, 第7号单元入样；
4
5 6 7 8
14
10 38 7 50
73
83 121 128 178
60～73
74～83 84～121 122～128 129～178
9
10
2
8
180
188
179～180
181～188
放回不等概率抽样实施方法 2.拉希里法(二次抽取法)（统计学家Lahiri最先提出）：设 M1, M2,…MN为单元的规模
样本单元被抽中的概率z1，，zn , 则对总体总量Y的估计是
n 1 ˆ yi Y HH n i 1 zi ˆ ) Y (1) E (Y HH N Yi 1 ˆ (2)V (YHH ) Z i ( Y ) 2 n i 1 Zi n yi ˆ 2 1 ˆ ) ˆ )的无偏估计。 (3)v(Y ( YHH ) 是V (Y HH HH n(n 1) i 1 zi
第四次（5，127），M5=78<127, 舍弃，重抽 ; 第五次 (4,77), M4=137>77, 第4号单元入样；第六次(9,60),M9=60≥60, 第9号单元入样；因此第4，7，9号单元被抽中。
放回不等概率抽样对总体特征的估计三、Hansen-Hurwitz（汉森-郝维茨）估计量及其性质：
yi 258 186 69 156 49 221 145 33 288 304
i 21 22 23 24 25 26 27 28
mi 19 26 37 21 7 43 18 30
yi 124 160 215 104 49 336 96 177
其中第2、19号被抽中两次
解：根据题中所给资料，n=30,M0=9542, 利用汉森-郝维茨估计量，则有：
Y HH 1 n yi M 0 n 1 zi n yi 1 mi
n
9542 75 134 177 ( 2 ... ) 56163(头) 30 15 23 30
2 n n y M yi ˆ 2 1 2 i 0 ˆ ) ˆ v(Y ( Y ) = ( YHH ) HH HH n(n 1) i 1 zi n(n 1) i 1 mi
不等概率抽样概述
2、抽样单元在总体中所占的地位不一致：例如：要反映某小麦品种的优良情况，以村作为抽样单位，但各村的种植面积不同，一些种植面积大的村庄在抽样中是否被抽中对推断总体的结果有很大影响，所以让“大单元” 被抽到的概率大，“小单元”被抽到的概率小，这样能够大大提高样本的代表性，减少抽样误差。
在PPS抽样中，赋予每个单元与Mi相等的代码数，将代码数累加得到M0，每次抽样都等概产生一个[1，M0]之间的随机数，设为m，代码m 所对应的单元被抽中。
例5.1 设某个总体有10个单元，相应的单元大小及其代码数如下表，在其中产生一个n=3的样本。
i
1 2
Mi
0.6 14.5
Mi*10
6 145

e商务文档

抽样技术 7 不等概率抽样

相关文档推荐：