当前位置：文档之家› 不等概率抽样

不等概率抽样

汉森—赫维茨估计量具有如下性质：对于所有的 Zi 0, i 1,2,, N ˆ ) Y 即它是无偏的。 1. E(Y HH

2.
ˆ 的方差为: Y HH
Yi 1 ˆ V YHH Z i Y n i 1 Z i
N

2

ˆ ) 的无偏估计为 3. V (Y HH
M 150
*
i 1 2 3 4
Mi
0.6 14.5 1.5 13.7
M i 10
6 145 15 137
N=10
在[1，10]和[1，150]中分别产生 (i,m):
如 (3,121), M3=15<m=121, 舍弃,重抽
如产生(7,77), M7=100 ＞ m=77, 第7号单元入样

1i N
每次抽样都分别产生一个 1, N 之间的随机数i及 1, M * 之间的随机数m, 如果 M i m ,则第i个单元被抽中; 否则,重抽一组(i,m). 显然,第i个单元的入样与否受到m的影响,只有 m M i 时它才入样,因此第 i个单元入样的可能性与Mi 的大小成正比,此时Zi=Mi / M0.

四、区域抽样(area sampling) 适用于：区域或面积本身就是抽样单元，或抽样单元的名单抽样框无法获得，但每个抽样单元只隶属于某个区域．例如：小麦产量调查：对地块的抽样可以是简单随机抽样，也可以是按面积进行的不等概抽样。

抽样框的类型：名单抽样框：即由抽样单元的名单组成．区域抽样框：即由定义明确的区域组成，而一个区域是由个体组成．对于区域抽样可以采用整群抽样（抽样单元是其本身），也可采用多阶段抽样（抽样单元是区域内的个体）．区域抽样框的优点：１．容易定义和识别．２．比较稳定．３．容易操作，回答率较高
5
6 7 8
7.8
15 10 3.6
78
150 100 36
9
6
1.1
60
11 738

10
…………
M 0 73.8
二、汉森—赫维茨估计量

对于放回不等概抽样，对总体总量Y的估计是汉森—赫维茨(Hansen—Hurwitz)估计：
ˆ Y HH 1 n yi M 0 n yi n i 1 zi n i 1 mi

二、概念及其必要性
不等概抽样：即每个单元入样的概率不相等. 为了提高抽样效率,通常采用两种不等概抽样方法: (1). 将总体单元按规模(大小)分层,对较大单元的层抽样比定高些,而较小单元的层抽样比定得低一些; (2). 赋予每个单元与其规模(或辅助变量)成比例的入样概率,即大单元的入样概率大,小单元入样概率小.
第六章不等概抽样
一、概述二、放回不等概抽样三、不放回不等概抽样

第一节概述

一、引言简单随机抽样的一个基本特点是总体中的每一个单元的入样概率都相等，因此，它是一种等概抽样。分层随机抽样中每一层内的抽样也是按照简单随机抽样进行的，因此，层内的抽样仍是等概率的。如果总体中的每个单元在该总体中的地位（或重要性）相差不多，则等概抽样是理所当然的选择。但是，如果总体单元相差较大，等概率抽样的效果就不一定好。在实际问题中，我们还需要使用不等概率抽样（sampling with unequal probablities）。

（3）为了改善估计量的特性。
– 例如，第五章已经学过，简单随机抽样比率估计量是渐近无偏的，要使它成为无偏估计，只要每个大小为n个样本被抽中的概率与其辅助变量的和成正比的话，则这时的比率估计量就是无偏的。 – 显然，这个样本并不是简单随机样本，而是一个不等概抽样获得的样本。

（4）其他情况：整群抽样、多阶段抽样中群或初级单元大小相差较大情形。

பைடு நூலகம்
注: 如果 Mi 不是整数,则乘以某个倍数.
【例】设某个总体有N=10个单元,相应的单元大小及其代码数如下页表,现要在其中产生一个 n=3 的样本.
i 1 2 3 4 5 6
Mi
0.6 14.5 1.5 13.7 7.8 15
M i 10
6 145 15 137 78 150
累计 M
i
10
ˆ vY HH

yi ˆ 1 1 YHH n n 1 i 1 zi
n 2 n

2
ˆ yi Y M0 HH nn 1 i 1 mi M 0

2
【例】某部门要了解所属8500家生产企业当月完成的利润, 该部门手头已有一份上年各企业完成产量的报告,将其汇总得到所属企业上年完成的产量为3676万吨. 考虑时间紧,准备采用抽样调查来推算当月完成的利润, 根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高,因此采用与上年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本,调查的结果如下表:
15 3.86 4600 16 15.8 2370
17 18* 9 21 940
640
25 28.43 9284
*该样本单元被抽中两次；mi为企业上年完成的产量，yi为企业当月完成的利润。

解;n=30,
M 0 3676
ˆ Y HH M0 n yi i 1 mi
n
3676 10926 10926 1024 510 ... 30 38.23 38.23 13.7 6.2 757087 （百元)
不等概抽样的优点：大大提高估计精度，减小抽样误差。使用不等概抽样的前提条件：必须要有说明每个单元规模大小的辅助变量来确定每个单元的入样概率。这在抽样及推算时都是必要的。

三、不等概抽样的种类（一）按抽样过程中被抽到的单元是否被放回总体中去而分为放回抽样和不放回抽样。放回的不等概率抽样：每次在总体中按一定概率抽取一个单元，抽取后放回总体，再进行下一次抽样。.其好处在于：每次抽样过程都是从同一个总体独立进行的，因此它的数据处理就特别简单。不放回的不等概率抽样：虽然效率常常更高，但由于丧失了独立生，无论抽样方法还是方差估计都比放回抽样复杂得多。在某种意义上可以这样说，抽样调查中的放回抽样主要用于不等概率抽样这种特殊情形。

（2）抽样单元在总体中所占的地位不一致。
– 例如：对船舶运输量进行调查时，以船舶为抽样单元，则有的是从事远洋运输的万吨巨轮，更多的是从事内河河网地区运输的上百吨乃至几十吨小船。显然，大船比小船处于更重要的地位。 – 类似的例子还有：通过对企业的调查估计某地区某一时期内的总产值，通过对商业网点的调查估计该地区的商品零售总额，等等。 – 在这些例子中，若对单位（船舶、企业、商店）实行等概抽样，估计效果一般不会很好。 – 若对单位采用不等概抽样，使大单位入样概率大，小单位入样概率小，就可提高估计的精度。
6.5 15 7 16
1900 864 17
1.5 8
10 80 3845
21 28.42 13672
1045 22* 9.01
5 6 7
8 9
2 5 10.8
2 8.81
1102 600 290
430 992
14 12.3
220
23 24
26 27
0.75 6
9.97 6.2
480 311
842 510

第二节放回不等概抽样
一、PPS抽样二、汉森—赫维茨估计量

一、PPS抽样

（一）多项抽样和PPS抽样
这就是多项抽样这一术语的由来。
PPS抽样：如果每个单元有说明其大小或规模的度量Mi，则Zi 可取： Mi Mi Zi N M0 Mi

i 1

此时，每个单元在这次抽样中的入样概率与单元大小成比例，称这种特殊的多项抽样为放回的与大小成比例的概率抽样（Sampling with probability proportional to size）,简称PPS抽样。
ˆ vY HH

ˆ Y 2 HH n yi M0 m M 0 nn 1 i 1 i
2

2
2 2 2 3676 10926 757087 1024 757087 510 757087 2 ... 30 29 3676 3676 3676 13.7 6.2 38.23
（二）视每个单元每次被抽中的概率（放回抽样情形）或最终样本中包含某个单元的概率（不放回抽样情形）是否严格地与单元的大小成比例。另外，看最终样本量n是固定的还是随机的。最重要的情形乃是当n固定，且上述概率与单元大小严格成比例的不等概抽样，这种情形的放回抽样称为PPS抽样，而相应的不放回抽样为πPS抽样。
注：由于抽样是放回的，因此，
某个单元可能在样本中出现多次，出现这种情况时，对这个单元的调查只进行一次，但计算时按抽中几次计算几次的原则。
(二)实施方法 1.代码法（汉森—赫维茨法）在PPS抽样中，赋予每个单元与Mi相等的代码数，将代码数累计得到M0，每次抽样都产生一个[1，M0]之间的随机数，设为m，则代码m所对应的单元被抽中。
36762 67306 .4286 3031700514 5. 8 30
要求:
根据以上调查结果估计该部门所属企业当月完成的利润,并给出95%置信度下估计的相对误差.如果要求在相同条件下相对误差达到20%,所需的样本量应该是多少?

e商务文档

不等概率抽样

相关文档推荐：