当前位置:文档之家› 被等概率抽样

被等概率抽样


18
代码法(累计和法,随机法或汉森— (1)代码法(累计和法,随机法或汉森—赫维 茨法) 茨法) 不太大, 为第i 设 N 不太大 , 且 M( 或 M i′ ) 为第 i 单元大小的 i 度量,且为整数, 度量,且为整数,对总体中的每个单元计算累计大 M0 小,得到总体所有单元代码的累计和 ,对总体 中每个单元确定与它相对应的代码范围; 在 1 到总 中每个单元确定与它相对应的代码范围 ; 范围内抽取一个随机数, 的累计大小 M 0 范围内抽取一个随机数,该随机数 相应的代码范围中的单元即为入样单元。 相应的代码范围中的单元即为入样单元。重复上述 步骤,直到抽得n个单元为止。 步骤,直到抽得n个单元为止。
11
第二节 放回不等概率抽样
一、多项抽样 多项抽样是一种最简单的不等概率抽样。 多项抽样是一种最简单的不等概率抽样 。 它 是从容量为N的总体中有放回地进行独立抽样 , 是从容量为 的总体中有放回地进行独立抽样, 的总体中有放回地进行独立抽样 每次抽样中, 使抽到第 i 个单元的概率为 i, i=1 , 每次抽样中 , 使抽到第i 个单元的概率为Z i=1 2,…,N, , 个单元。 个单元。
第六章
第一节 第二节 第三节
不等概率抽样
不等概率抽样概述 放回不等概率抽样 不放回不等概率抽样
1
第一节 不等概率抽样概述
一、不等概率抽样的必要性 在简单随机抽样中,总体(或层)中的每个单 在简单随机抽样中, 总体( 或层 ) 元入样的概率都相等。 元入样的概率都相等 。 如果总体中的每个单元在 该总体中的地位(或重要性)相差不多, 该总体中的地位 (或重要性 ) 相差不多 , 则这种基 于等概率的抽样是理所当然的选择。 于等概率的抽样是理所当然的选择 。 等概率抽样 不仅实施简单,而且相应的数据处理公式也简单。 不仅实施简单 , 而且相应的数据处理公式也简单 。 但是在许多实际问题中, 但是在许多实际问题中 , 我们还需要使用不等概 率 抽 样 (sampling with unequal probabilities)。 probabilities)。
V ( t i ) = n Z i (1 − Z i )
C o v (ti , t j ) = − n Z i Z
j
(i ≠ j )
当每个单元具有一个说明其大小或规模 M i的 度量时, 度量时,每个单元在每次抽样中的入样概率与单 元大小成比例, 元大小成比例,称这种特殊的多项抽样为放回的 与大小成比例的概率抽样,简称PPS抽样。 PPS抽样 与大小成比例的概率抽样,简称PPS抽样。
14
二、PPS抽样 PPS抽样 PPS抽样是与大小(或规模)成比例的概率抽 PPS抽样是与大小(或规模) 抽样是与大小 样 , 是一种使用辅助信息从而使入样概率不相等 的抽样技术。 的抽样技术。 如果总体单元的大小或规模变化很大, 如果总体单元的大小或规模变化很大 , 且这 些大小是已知的, 这样的信息就可以用在抽样中, 些大小是已知的 , 这样的信息就可以用在抽样中 , 以提高统计效率。 如果单元大小的度量是准确的, 以提高统计效率 。 如果单元大小的度量是准确的 , 而且所研究的变量与单元的大小相关,PPS抽样能 而且所研究的变量与单元的大小相关,PPS抽样能 极大地提高精度。 但如果大小的度量不大准确, 极大地提高精度 。 但如果大小的度量不大准确 , 最好按大小分组并使用分层抽样。 最好按大小分组并使用分层抽样。
4
总之, 总之 , 在实际工作中需要我们经常采用不等 概率抽样。 另外,从上面列举的情况也可看到, 概率抽样 。 另外 , 从上面列举的情况也可看到 , 凡需使用不等概率抽样的场合, 凡需使用不等概率抽样的场合 , 必须提供总体单 元的某种辅助信息, 例如每个单元的“ 大小” 元的某种辅助信息 , 例如每个单元的 “ 大小 ” 度 Mi或辅助变量Xi等 或辅助变量Xi 量Mi或辅助变量Xi等。
6
另一种分类是:视每次抽样(放回抽样的情形) 另一种分类是:视每次抽样(放回抽样的情形) 概率或每个单元的入样概率(不放回抽样的情形) 概率或每个单元的入样概率 ( 不放回抽样的情形 ) 是否严格地与单元的大小成比例。 另外, 是否严格地与单元的大小成比例 。 另外 , 看样本 量 n 是固定的还是随机的。最重要的情形乃是当n 是固定的还是随机的。 最重要的情形乃是当 n 固定, 固定 , 且上述概率与单元大小严格成比例的不等 概率抽样。 概率抽样 。 以后我们将这种情形的放回抽样称为 PPS抽样 称相应的不放回抽样为πPS抽样。 抽样, πPS抽样 PPS抽样,称相应的不放回抽样为πPS抽样。
21
系统PPS PPS抽样方法 (3)系统PPS抽样方法 对总体中的每个单元,计算累计大小; 对总体中的每个单元,计算累计大小; 对总体中每个单元确定与它相对应的代码范 围; 确定抽样间隔k=总累计大小/n k=总累计大小/n; 确定抽样间隔k=总累计大小/n; 的范围内确定一个随机起点r 在1和k的范围内确定一个随机起点r; 与代码r r+k, r+2 r+( 与代码 r , r+k , r+2k , … , r+ ( n-1 ) k 所在 范围相对应的单元入样。 范围相对应的单元入样。 注意, r+( 超过总累计大小时, 注意,当r+(n-1)k超过总累计大小时,应 使用圆形系统抽样中的模余数法。 使用圆形系统抽样中的模余数法。
), tN
它的联合分布即是以下的多项分布: 它的联合分布即是以下的多项分布:
n! tN t1 t2 Z1 Z 2 L Z N t1 ! t 2 !L t N !
这就是多项抽样这个术语的来源。 这就是多项抽样这个术语的来源。
13
根据多项分布的性质, 根据多项分布的性质,有
E (ti ) = n Z i
15
PPS抽样的入样概率 。 如上所述, PPS抽样时 PPS 抽样的入样概率。如上所述 , PPS 抽样时 抽样的入样概率 可取
Mi Zi = M0
为第i个单元的入样概率, 为第 i个单元的入样概率,其中 是总 i =1 体中所有单元的“大小”之和, 为第i 体中所有单元的“大小”之和, M 为第i个单元 i 的大小。 的大小。
19
PPS抽样时,单元的代码如下表: PPS抽样时,单元的代码如下表: 抽样时
20
拉希里法(二次抽样法) (2)拉希里法(二次抽样法) 累计, 不太大时是适用的, 代码法要将 M i 累计 , 在 N不太大时是适用的 , 但当N很大时,就很不方便。此时可用Lahiri Lahiri( 但当 N 很大时 , 就很不方便 。 此时可用 Lahiri( 拉 希里)1951年提出的方法 年提出的方法。 希里)1951年提出的方法。 i} 令M* = max{M每次抽取一个范围内的随机数i 及 1≤ i ≤ N [1,M *] 范围内的随机数 m ,若 M i ≥ m , 则第 i 单元 范围内的随机数m 入样;否则, 此时, 入样;否则,重抽 (i,m) 。此时,第i个单元的 成正比, 入样概率与 M i 成正比 , 从而 Zi = M i / M 0 。 重复 这一过程, 个单元。 这一过程,直到抽够所需的 n 个单元。
8
3.系统抽取法。将总体单元按某种顺序排列, 系统抽取法。将总体单元按某种顺序排列, 且将规定的单元入样(或其倍数)累计起来, 且将规定的单元入样 ( 或其倍数 ) 累计起来 , 并 确定抽样间隔, 确定抽样间隔 , 在这个范围内产生一个随机数以 确定初始入样单元,然后按上述抽样间隔确定其 确定初始入样单元, 余的样本单元。 余的样本单元。 4. 全样本方法。对每个可能样本规定一个被 全样本方法。 抽中的概率,按这个概率一次抽取整个样本。 抽中的概率,按这个概率一次抽取整个样本。
M0 = ∑ Mi
N
16
有时, 有时 , 关于单元的大小 M i 只是约略知道或 这个“大小” 这个 “ 大小 ” 并不是用单元所含的次级单元数来 表示的,而是用其它有关尺度来计量。此时, 表示的 , 而是用其它有关尺度来计量 。 此时 , 设 则有: 第i单元大小的计量尺度为 ,则有: M i′
2
一种情况是调查的总体单元与抽样总体的单 元可能不一致。 元可能不一致。 另一种需要用到不等概率抽样的情况是, 另一种需要用到不等概率抽样的情况是 , 抽 样单元在总体中所占的地位不一致。 样单元在总体中所占的地位不一致。 最重要的一种不等概率抽样乃是使每个单元 入样的概率与该单元的大小成比例的抽样 (sampling with probabilities proportional sizes,简称PPS抽样) PPS抽样 to sizes,简称PPS抽样)。
′ ′ Z i = M i′ M 0 (M 0 = ∑ M i′)
i =1
N
这时的PPS抽样也称作PPZ抽样。 这时的PPS抽样也称作PPZ抽样。 PPS抽样也称作PPZ抽样
17
三、多项抽样的实施方法 如何抽取一个不等概率样本呢? 如何抽取一个不等概率样本呢?有三种主要 方法:代码法、系统法及随机系统法。 方法:代码法、系统法及随机系统法。以下的讨 论以PPS抽样为例,并假定单元大小皆为整数。 PPS抽样为例 论以PPS抽样为例,并假定单元大小皆为整数。
7
对于不放回抽样, 对于不放回抽样 , 按其样本单元抽取方式的 不同又可分为以下几种方法: 不同又可分为以下几种方法: 逐个抽取法。 1. 逐个抽取法 。 每次从尚未入样的单元中以 一定概率抽取一个单元, 一定概率抽取一个单元 , 这个概率通常与已经入 样的单元有关, 样的单元有关, 重抽法。以一定概率逐个进行放回抽样, 2. 重抽法 。 以一定概率逐个进行放回抽样 , 若一旦抽到重复单元, 若一旦抽到重复单元 , 则放弃所有已抽到的单元 而重新抽取, 而重新抽取 , 直到抽到规定单元数且所有入样单 元都不同为止。 元都不同为止。 Back
相关主题