当前位置:文档之家› 不等概率抽样

不等概率抽样


汉森—赫维茨估计量具有如下性质: 对于所有的 Zi 0, i 1,2,, N ˆ ) Y 即它是无偏的。 1. E(Y HH


2.
ˆ 的方差为: Y HH
Yi 1 ˆ V YHH Z i Y n i 1 Z i
N

2

ˆ ) 的无偏估计为 3. V (Y HH
M 150
*
i 1 2 3 4
Mi
0.6 14.5 1.5 13.7
M i 10
6 145 15 137
N=10
在[1,10]和[1,150]中 分别产生 (i,m):
如 (3,121), M3=15<m=121, 舍弃,重抽
如产生(7,77), M7=100 > m=77, 第7号单元入样

1i N
每次抽样都分别产生一个 1, N 之间的随机数i及 1, M * 之间的随机数m, 如果 M i m ,则第i个单元被抽中; 否则,重抽一组(i,m). 显然,第i个单元的入样与否受到m的影响,只有 m M i 时它才入样,因此第 i个 单元入样的可能性与Mi 的大 小成正比,此时Zi=Mi / M0.

四、区域抽样(area sampling) 适用于:区域或面积本身就是抽样单元, 或抽样单元的名单抽样框无法获得,但 每个抽样单元只隶属于某个区域. 例如:小麦产量调查:对地块的抽样可 以是简单随机抽样,也可以是按面积进 行的不等概抽样。

抽样框的类型: 名单抽样框:即由抽样单元的名单组成. 区域抽样框:即由定义明确的区域组成,而 一个区域是由个体组成. 对于区域抽样可以采用整群抽样(抽样单 元是其本身),也可采用多阶段抽样(抽样单 元是区域内的个体). 区域抽样框的优点: 1.容易定义和识别. 2.比较稳定. 3.容易操作,回答率较高
5
6 7 8
7.8
15 10 3.6
78
150 100 36
9
6
1.1
60
11 738

10
…………
M 0 73.8
二、汉森—赫维茨估计量

对于放回不等概抽样,对总体总量Y的估计是汉 森—赫维茨(Hansen—Hurwitz)估计:
ˆ Y HH 1 n yi M 0 n yi n i 1 zi n i 1 mi


二、概念及其必要性
不等概抽样:即每个单元入样的概率不相等. 为了提高抽样效率,通常采用两种不等概抽样方法: (1). 将总体单元按规模(大小)分层,对较大单元的层抽样比 定高些,而较小单元的层抽样比定得低一些; (2). 赋予每个单元与其规模(或辅助变量)成比例的入样概 率,即大单元的入样概率大,小单元入样概率小.
第六章 不等概抽样
一、概述 二、放回不等概抽样 三、不放回不等概抽样

第一节 概述




一、引言 简单随机抽样的一个基本特点是总体中的每一 个单元的入样概率都相等,因此,它是一种等 概抽样。 分层随机抽样中每一层内的抽样也是按照简单 随机抽样进行的,因此,层内的抽样仍是等概 率的。 如果总体中的每个单元在该总体中的地位(或 重要性)相差不多,则等概抽样是理所当然的 选择。但是,如果总体单元相差较大,等概率 抽样的效果就不一定好。 在实际问题中,我们还需要使用不等概率抽样 (sampling with unequal probablities)。

(3)为了改善估计量的特性。
– 例如,第五章已经学过,简单随机抽样比率估计量 是渐近无偏的,要使它成为无偏估计,只要每个大 小为n个样本被抽中的概率与其辅助变量的和成正 比的话,则这时的比率估计量就是无偏的。 – 显然,这个样本并不是简单随机样本,而是一个不 等概抽样获得的样本。

(4)其他情况:整群抽样、多阶段抽样 中群或初级单元大小相差较大情形。

பைடு நூலகம்
注: 如果 Mi 不是整数,则乘以某个倍数.
【例】设某个总体有N=10个单元,相应的单元大小 及其代码数如下页表,现要在其中产生一个 n=3 的 样本.
i 1 2 3 4 5 6
Mi
0.6 14.5 1.5 13.7 7.8 15
M i 10
6 145 15 137 78 150
累计 M
i
10
ˆ vY HH

yi ˆ 1 1 YHH n n 1 i 1 zi
n 2 n

2
ˆ yi Y M0 HH nn 1 i 1 mi M 0

2
【例】 某部门要了解所属8500家生产企业当月完成的利润, 该部门手头已有一份上年各企业完成产量的报告,将其汇 总得到所属企业上年完成的产量为3676万吨. 考虑时间紧,准备采用抽样调查来推算当月完成的利润, 根据经验,企业的产量和利润相关性比较强,且企业的特点 是规模和管理水平差异比较大,通常大企业的管理水平较 高,因此采用与上年产量成比例的PPS抽样,从所属企业中 抽出一个样本量为30的样本,调查的结果如下表:
15 3.86 4600 16 15.8 2370
17 18* 9 21 940
640
25 28.43 9284
*该样本单元被抽中两次;mi为企业上年完成的产量,yi为企 业当月完成的利润。

解;n=30,
M 0 3676
ˆ Y HH M0 n yi i 1 mi
n
3676 10926 10926 1024 510 ... 30 38.23 38.23 13.7 6.2 757087 (百元)
不等概抽样的优点:大大提高估计精度, 减小抽样误差。 使用不等概抽样的前提条件:必须要有 说明每个单元规模大小的辅助变量来确 定每个单元的入样概率。这在抽样及推 算时都是必要的。






三、不等概抽样的种类 (一)按抽样过程中被抽到的单元是否被放回总体 中去而分为放回抽样和不放回抽样。 放回的不等概率抽样:每次在总体中按一定概率 抽取一个单元,抽取后放回总体,再进行下一次 抽样。.其好处在于:每次抽样过程都是从同一个 总体独立进行的,因此它的数据处理就特别简单。 不放回的不等概率抽样:虽然效率常常更高,但由 于丧失了独立生,无论抽样方法还是方差估计都比 放回抽样复杂得多。 在某种意义上可以这样说,抽样调查中的放回抽样 主要用于不等概率抽样这种特殊情形。

(2)抽样单元在总体中所占的地位不一致。
– 例如:对船舶运输量进行调查时,以船舶为抽样单 元,则有的是从事远洋运输的万吨巨轮,更多的是 从事内河河网地区运输的上百吨乃至几十吨小船。 显然,大船比小船处于更重要的地位。 – 类似的例子还有:通过对企业的调查估计某地区某 一时期内的总产值,通过对商业网点的调查估计该 地区的商品零售总额,等等。 – 在这些例子中,若对单位(船舶、企业、商店)实 行等概抽样,估计效果一般不会很好。 – 若对单位采用不等概抽样,使大单位入样概率大, 小单位入样概率小,就可提高估计的精度。
6.5 15 7 16
1900 864 17
1.5 8
10 80 3845
21 28.42 13672
1045 22* 9.01
5 6 7
8 9
2 5 10.8
2 8.81
1102 600 290
430 992
14 12.3
220
23 24
26 27
0.75 6
9.97 6.2
480 311
842 510

第二节 放回不等概抽样
一、PPS抽样 二、汉森—赫维茨估计量

一、PPS抽样

(一)多项抽样和PPS抽样
这就是多项抽样这一术语的由来。
PPS抽样: 如果每个单元有说明其大小或规模的度量Mi,则Zi 可取: Mi Mi Zi N M0 Mi

i 1

此时,每个单元在这次抽样中的入样概率与单元大 小成比例,称这种特殊的多项抽样为放回的与大小 成比例的概率抽样(Sampling with probability proportional to size),简称PPS抽样。
ˆ vY HH

ˆ Y 2 HH n yi M0 m M 0 nn 1 i 1 i
2

2
2 2 2 3676 10926 757087 1024 757087 510 757087 2 ... 30 29 3676 3676 3676 13.7 6.2 38.23
(二)视每个单元每次被抽中的概率(放回 抽样情形)或最终样本中包含某个单元的概 率(不放回抽样情形)是否严格地与单元的 大小成比例。另外,看最终样本量n是固定的 还是随机的。 最重要的情形乃是当n固定,且上述概率与单 元大小严格成比例的不等概抽样,这种情形 的放回抽样称为PPS抽样,而相应的不放回 抽样为πPS抽样。
注:由于抽样是放回的,因此,
某个单元可能在样本中出现多次, 出现这种情况时,对这个单元的 调查只进行一次,但计算时按抽 中几次计算几次的原则。
(二)实施方法 1.代码法(汉森—赫维茨法) 在PPS抽样中,赋予每个单元与Mi相等 的代码数,将代码数累计得到M0,每次 抽样都产生一个[1,M0]之间的随机数, 设为m,则代码m所对应的单元被抽中。
36762 67306 .4286 3031700514 5. 8 30
要求:
根据以上调查结果估计该部门所属企业当月完成的 利润,并给出95%置信度下估计的相对误差.如果要求在相 同条件下相对误差达到20%,所需的样本量应该是多少?
相关主题