当前位置:文档之家› 第七章(不等概率抽样)

第七章(不等概率抽样)


Z
i 1
N
i
1
独立进行n次这种抽样,共抽到n个单元(有可能重复),则称 这种不等概率抽样为多项抽样(multinominal sampling) • 特别地,当总体中每个单元具有一个说明其“大小”或“规模” 的度量Mi时,则可将每个单元的入样概率取为:
N Mi Zi ,( M 0 M i ) M0 i 1
• 霍维茨-汤普森估计量的方差为:
ˆ V (YHT )
i 1
N
1i
i
ij i j Yi 2 YiY j i j i 1 j i
N N 2
◎当n固定时,这一方差为:
ˆ V (YHT ) ( i j ij )(
i 1 j i
N
N
i
Yi

Yj
j
)2
copyright©princebf,2006-2007
• 霍维茨-汤普森估计量方差的无偏估计为:
ˆ v(YHT )
i 1
n
1i
i2
ij i j y 2 yi y j i 1 j i i j ij
n n 2 i
◎当n固定时,有耶茨-格伦迪-森估计(Yates-Grundy- Sen)也是上述方差的无偏估计:
则在不放回的情形下,这一抽样就是一个与单元大小成比例的
不等概率抽样。 • 称这种不放回的与单元大小成比例的概率抽样为π PS抽样
copyright©princebf,2006-2007
二、πPS抽样的估计
• 对于不放回不等概率抽样,对于总体总量,霍维茨-汤普森 (Horvitz-Thompson)提出如下估计量:
i j ij yi y j 2 ˆ v ygs (YHT ) ( )( ) ij i j i 1 j i
copyright©princebf,2006-2007
• 但是如果总体单元相差较大,等概率抽样效果不一定好 ◎例如估计昆明市商业零售总额,大型商场、中型超市和小型 商店的差别非常明显,平等对待显然不合理 • 对这一情况,处理方式有多种: ◎分层抽样:按规模分层,大型抽样比高、小型抽样比低 ◎目录抽样:少数大单元普查而大多数小单元进行抽样 ◎不等概率抽样
ˆ YHH
1 n yi n i 1 zi
• 特别地,对PPS抽样: z mi i 有:
M0
yi m i 1 i
n
ˆ YHH
M0 n
copyright©princebf,2006-2007
• 意义:将Y理解为商店销售额,度量M理解为商店人数,则:
yi / mi
1 ( yi / m i ) n
• 当n>1时,这一方差的无偏估计为:
n yi ˆ 2 1 ˆ ) v(YHH ( z YHH ) n(n 1) i 1 i
copyright©princebf,2006-2007
Yi 证明:设随机变量 , 具有N 取值i ( i 1, 2,..., N ) Zi 且:P( Yi Zi ) Zi
一、包含概率与πPS抽样
• 放回不等概率抽样中,每个单元的入样概率Zi是关键
• 不放回不等概率抽样中,每个单元被包含到样本的概率π i及 任意两个单元都包含到样本的概率π ij都起着重要的作用,它 们统称为包含概率(inclusion probability)
•设总体容量为N,样本量n(固定),包含概率具有以下性质: ◎所有N个单元的入样概率之和为n,即:
copyright©princebf,2006-2007
§7.2 放回不等概率抽样
一、多项抽样与PPS抽样 二、PPS抽样的实施 三、PPS抽样的估计
copyright©princebf,2006-2007
一、多项抽样与PPS抽样
• 设总体包含N个单元,对其进行放回抽样。设在每次抽样中, 抽到第i个单元的概率为Zi(i=1,2,…,N),
• 【例5.4,P169; 例5.5,P171】
copyright©princebf,2006-2007
#总体均值的估计 • 基于汉森-赫维茨总和估计量基础上的总体均值的估计量为:
ˆ YHH ˆ YHH 1 n yi N Nn i 1 zi
• 方差: • 方差估计:
Yi 1 1 N ˆ ) V (YHH Z i ( Y )2 Z N 2 n i 1 i

i 1 j i
N
N
ij
( ij , i固定) ( n 1) i n( n 1)
i 1 N ji i 1
N
N
N
that is :
ij n(n 1)
i 1 j i
N
1 2
copyright©princebf,2006-2007
copyright©princebf,2006-2007
而样本方差:
1 n yi ˆ 2 v( ) ( m YHH ) n 1 i 1 i
是 V ( ) 的无偏估计 从而:
n yi ˆ 2 1 1 ˆ ) v( ) v(YHH ( z YHH ) n n(n 1) i 1 i
一、不等概率抽样的提出与含义
• 前述概率抽样方式,具有“等概率” 的特点。
◎简单随机抽样下总体中每一个单元的入样概率均相等
◎分层随机抽样下,层内每一个单元的入样概率均相等
◎特别地,按比例分配的分层随机抽样对于总体中每一个单元
的入样概率均相等 • 等概率抽样的基本出发点是将总体(或层)中的每一个单元看 作是平等的,不“偏向”也不“疏远”某些特定的单元 • 如果总体单元差异不大,这种方式既简单也合理

i 1
N
i
n
※如此可以保证在一次抽样中可以同时抽出容 量为n的一个样本
copyright©princebf,2006-2007
◎ 固定第i个单元后,剩余的任意一个单元与其同时出现的概率 之和为:

ji
N
ij
i Pr( j | i ) ( n 1) i ;
ji
N
◎ 总体中任意两个不同单元同时入样的概率之和为:
copyright©princebf,2006-2007
三、不等概率抽样的分类
• 不等概率抽样有很多,布鲁尔与哈尼夫在1983年专著《不等概 率抽样》中曾列举了50多种方法。不过真正常用的在10种左右 • 这些方法按其实施方法或特性可以分成许多不同的类型 ◎按抽样过程中被抽到的单元是否被放回总体而分为放回抽样和 不放回抽样。常用的是放回抽样。 ◎按单元的入样概率是否严格地与单元大小成比例,还有最终杨 本量n是固定还是随机的。 ◎不放回的抽样,按样本单元抽取方式还可以分为逐个抽取法、 重抽法、系统抽取法等等。
第i个样本商店的人均销售额。 所有样本商店的人均销售额的平均。 所有商店的销售总额
M0 * A
copyright©princebf,2006-2007
※ 估计量的性质
ˆ • 汉森-赫维茨估计量是总体总和的无偏估计: E(YHH ) Y
• 汉森-赫维茨估计量的方差为:
Yi 1 N ˆ ) V (YHH Z i ( Y )2 Z n i 1 i
则:
N Yi Y E ( ) Zi Y ,V ( ) Z i ( i Y )2 Zi Zi i 1 i 1
N
ˆ YHH
1 n i 是n次独立观测值yi/zi的样本平均数 n i 1
则由数理统计(放回简单随机抽样),有:
ˆ E (YHH ) E ( ) Y ; Yi 1 1 N ˆ ) V ( ) V (YHH Z i ( Y )2 Z n n i 1 i
j 1 j 1 i 1 i
• 每次抽样时在整数1-M0之间产生一个随机数m,则代码m所 属的单元即为抽中单元,如此重复n次即可获得n个样本单元。 若有的随机数相同或属于同一单元,则该单元被重复抽中
copyright©princebf,2006-2007
2、拉希里法(二次抽取法,Lahiri,印度) • 设总体单元数为N,单元规模为Mi,记:M * max( Mi ) ◎ 在1-N范围内产生一个随机数,设为j;
copyright©princebf,2006-2007
• 不等概率抽样(sampling with unequal probability)是指在抽 取样本之前给总体中的每一个单元赋予一定的入样概率,从而 保证大的(重要的)单元抽到的概率大,而小的(不重要的) 的单元抽到的概率小。这里每个单元被赋予的入样概率通常与 某个辅助变量有关(比如单元规模等) • 不等概率抽样是抽样理论发展的产物。 ◎代表性抽样:主观、有意识的抽样 ◎等概率的随机抽样:每个单元平等 ◎分层抽样:不同层不等概率,但层内等概率
yi ˆ YHT
i 1
n
i
• 特别地,对于π PS抽样: 有:
i nZi
◎这里yi不可重复
ˆ YHT
1 n yi M 0 n yi m n i 1 z i n i 1 i
copyright©princebf,2006-2007
※ 估计量的性质
ˆ • 霍维茨-汤普森估计量是总体总和的无偏估计: E(YHT ) Y
此时每个单元在每次抽样中的入样概率与单元大小成比例,称 这种特殊的多项抽样为与大小成比例的概率抽样(sampling with probability proportional to size),简称PPS抽样。
copyright©princebf,2006-2007
二、PPS抽样的实施
1、代码法(累积总和法,汉森-赫维茨法,1943)
◎ 在1-M*范围内的随机数m
相关主题