当前位置：文档之家› 第七章(不等概率抽样)

第七章(不等概率抽样)

Z
i 1
N
i
1
独立进行n次这种抽样，共抽到n个单元（有可能重复），则称这种不等概率抽样为多项抽样（multinominal sampling） • 特别地，当总体中每个单元具有一个说明其“大小”或“规模” 的度量Mi时，则可将每个单元的入样概率取为：
N Mi Zi ,( M 0 M i ) M0 i 1
• 霍维茨－汤普森估计量的方差为：
ˆ V (YHT )
i 1
N
1i
i
ij i j Yi 2 YiY j i j i 1 j i
N N 2
◎当n固定时，这一方差为：
ˆ V (YHT ) ( i j ij )(
i 1 j i
N
N
i
Yi

Yj
j
)2
copyright©princebf,2006-2007
• 霍维茨－汤普森估计量方差的无偏估计为：
ˆ v(YHT )
i 1
n
1i
i2
ij i j y 2 yi y j i 1 j i i j ij
n n 2 i
◎当n固定时，有耶茨－格伦迪－森估计(Yates－Grundy－ Sen）也是上述方差的无偏估计：
则在不放回的情形下，这一抽样就是一个与单元大小成比例的
不等概率抽样。 • 称这种不放回的与单元大小成比例的概率抽样为π PS抽样
copyright©princebf,2006-2007
二、πPS抽样的估计
• 对于不放回不等概率抽样，对于总体总量，霍维茨－汤普森（Horvitz－Thompson）提出如下估计量：
i j ij yi y j 2 ˆ v ygs (YHT ) ( )( ) ij i j i 1 j i
copyright©princebf,2006-2007
• 但是如果总体单元相差较大，等概率抽样效果不一定好 ◎例如估计昆明市商业零售总额，大型商场、中型超市和小型商店的差别非常明显，平等对待显然不合理 • 对这一情况，处理方式有多种： ◎分层抽样：按规模分层，大型抽样比高、小型抽样比低 ◎目录抽样：少数大单元普查而大多数小单元进行抽样 ◎不等概率抽样
ˆ YHH
1 n yi n i 1 zi
• 特别地，对PPS抽样： z mi i 有：
M0
yi m i 1 i
n
ˆ YHH
M0 n
copyright©princebf,2006-2007
• 意义：将Y理解为商店销售额，度量M理解为商店人数，则：
yi / mi
1 ( yi / m i ) n
• 当n>1时，这一方差的无偏估计为：
n yi ˆ 2 1 ˆ ) v(YHH ( z YHH ) n(n 1) i 1 i
copyright©princebf,2006-2007
Yi 证明：设随机变量 , 具有N 取值i ( i 1, 2,..., N ) Zi 且：P( Yi Zi ) Zi
一、包含概率与πPS抽样
• 放回不等概率抽样中，每个单元的入样概率Zi是关键
• 不放回不等概率抽样中，每个单元被包含到样本的概率π i及任意两个单元都包含到样本的概率π ij都起着重要的作用，它们统称为包含概率（inclusion probability）
•设总体容量为N，样本量n（固定），包含概率具有以下性质： ◎所有N个单元的入样概率之和为n，即：
copyright©princebf,2006-2007
§7.2 放回不等概率抽样
一、多项抽样与PPS抽样二、PPS抽样的实施三、PPS抽样的估计
copyright©princebf,2006-2007
一、多项抽样与PPS抽样
• 设总体包含N个单元，对其进行放回抽样。设在每次抽样中，抽到第i个单元的概率为Zi（i=1,2,…,N），
• 【例5.4,P169; 例5.5,P171】
copyright©princebf,2006-2007
＃总体均值的估计 • 基于汉森－赫维茨总和估计量基础上的总体均值的估计量为：
ˆ YHH ˆ YHH 1 n yi N Nn i 1 zi
• 方差： • 方差估计：
Yi 1 1 N ˆ ) V (YHH Z i ( Y )2 Z N 2 n i 1 i

i 1 j i
N
N
ij
( ij , i固定） ( n 1) i n( n 1)
i 1 N ji i 1
N
N
N
that is :
ij n(n 1)
i 1 j i
N
1 2
copyright©princebf,2006-2007
copyright©princebf,2006-2007
而样本方差：
1 n yi ˆ 2 v( ) ( m YHH ) n 1 i 1 i
是 V ( ) 的无偏估计从而：
n yi ˆ 2 1 1 ˆ ) v( ) v(YHH ( z YHH ) n n(n 1) i 1 i
一、不等概率抽样的提出与含义
• 前述概率抽样方式，具有“等概率” 的特点。
◎简单随机抽样下总体中每一个单元的入样概率均相等
◎分层随机抽样下，层内每一个单元的入样概率均相等
◎特别地，按比例分配的分层随机抽样对于总体中每一个单元
的入样概率均相等 • 等概率抽样的基本出发点是将总体（或层）中的每一个单元看作是平等的，不“偏向”也不“疏远”某些特定的单元 • 如果总体单元差异不大，这种方式既简单也合理

i 1
N
i
n
※如此可以保证在一次抽样中可以同时抽出容量为n的一个样本
copyright©princebf,2006-2007
◎ 固定第i个单元后，剩余的任意一个单元与其同时出现的概率之和为：

ji
N
ij
i Pr( j | i ) ( n 1) i ;
ji
N
◎ 总体中任意两个不同单元同时入样的概率之和为：
copyright©princebf,2006-2007
三、不等概率抽样的分类
• 不等概率抽样有很多，布鲁尔与哈尼夫在1983年专著《不等概率抽样》中曾列举了50多种方法。不过真正常用的在10种左右 • 这些方法按其实施方法或特性可以分成许多不同的类型 ◎按抽样过程中被抽到的单元是否被放回总体而分为放回抽样和不放回抽样。常用的是放回抽样。 ◎按单元的入样概率是否严格地与单元大小成比例，还有最终杨本量n是固定还是随机的。 ◎不放回的抽样，按样本单元抽取方式还可以分为逐个抽取法、重抽法、系统抽取法等等。
第i个样本商店的人均销售额。所有样本商店的人均销售额的平均。所有商店的销售总额
M0 * A
copyright©princebf,2006-2007
※ 估计量的性质
ˆ • 汉森－赫维茨估计量是总体总和的无偏估计： E(YHH ) Y
• 汉森－赫维茨估计量的方差为：
Yi 1 N ˆ ) V (YHH Z i ( Y )2 Z n i 1 i
则：
N Yi Y E ( ) Zi Y ,V ( ) Z i ( i Y )2 Zi Zi i 1 i 1
N
ˆ YHH
1 n i 是n次独立观测值yi/zi的样本平均数 n i 1
则由数理统计（放回简单随机抽样），有：
ˆ E (YHH ) E ( ) Y ; Yi 1 1 N ˆ ) V ( ) V (YHH Z i ( Y )2 Z n n i 1 i
j 1 j 1 i 1 i
• 每次抽样时在整数1－M0之间产生一个随机数m，则代码m所属的单元即为抽中单元，如此重复n次即可获得n个样本单元。若有的随机数相同或属于同一单元，则该单元被重复抽中
copyright©princebf,2006-2007
2、拉希里法（二次抽取法，Lahiri，印度） • 设总体单元数为N，单元规模为Mi，记：M * max( Mi ) ◎ 在1－N范围内产生一个随机数，设为j；
copyright©princebf,2006-2007
• 不等概率抽样（sampling with unequal probability）是指在抽取样本之前给总体中的每一个单元赋予一定的入样概率，从而保证大的（重要的）单元抽到的概率大，而小的（不重要的）的单元抽到的概率小。这里每个单元被赋予的入样概率通常与某个辅助变量有关（比如单元规模等） • 不等概率抽样是抽样理论发展的产物。 ◎代表性抽样：主观、有意识的抽样 ◎等概率的随机抽样：每个单元平等 ◎分层抽样：不同层不等概率，但层内等概率
yi ˆ YHT
i 1
n
i
• 特别地，对于π PS抽样：有：
i nZi
◎这里yi不可重复
ˆ YHT
1 n yi M 0 n yi m n i 1 z i n i 1 i
copyright©princebf,2006-2007
※ 估计量的性质
ˆ • 霍维茨－汤普森估计量是总体总和的无偏估计： E(YHT ) Y
此时每个单元在每次抽样中的入样概率与单元大小成比例，称这种特殊的多项抽样为与大小成比例的概率抽样（sampling with probability proportional to size），简称PPS抽样。
copyright©princebf,2006-2007
二、PPS抽样的实施
1、代码法（累积总和法，汉森－赫维茨法，1943）
◎ 在1－M*范围内的随机数m

e商务文档

第七章(不等概率抽样)

相关文档推荐：