当前位置：文档之家› 第三章分层随机抽样

第三章分层随机抽样

N1 N2 NL N
NL ，则有：
2014-12-12
2
定义 4.2 分层抽样（stratified sampling）：又称为类型抽样或分类抽样。即抽样在每一层中独立进行，总的样本由各层样本组成，总体参数则根据各层样本参数的汇总做出估计，这种抽样就称为分层抽样，所得样本称为分层样本。设总的样本量为 n ，从 L 个子总体中所抽取的样本量分别为 n1 , n2 , nL ，则有： n1 n2
W 2V Y V Y h h st
h1

L

只要对各层估计无偏，则总体估计也无偏。

各层可以采用不同的抽样方法，只要相应的估计量是无偏的，则对总体的推算也是无偏的。
11
2014-12-12
证明性质1
由于对每一层有
ˆ Y EY h h

L L ˆ ˆ ˆ E Y E W Y W E Y st h h h h 因此， h1 h1

L
如果得到的是分层随机样本，则总体总量的简单估计为：
h 1
Ny Y st
2014-12-12 17
2.估计量的性质
性质1：对于一般的分层抽样，如果 ˆ 是 Y 的无偏估 Yst 是 Y 的无偏估计，则 Y ˆ 的方差为：计。Y

2 ˆ ˆ ˆ V Y N V Yst V Y h
L

1 L 1 L Y WhYh N hYh Yh Y N h1 N h1 N h 1 估计量的方差 L L L L 2 ˆ ˆ ˆ ˆ ,Y ˆ V Yst V WhYh Wh V Yh 2WhWk Cov Y h k h 1 k h h1 h1 由于各层是独立抽取的，因此上式第二项中的协方差全 L ˆ W 2V Y ˆ 为0，从而有 V Y
nL n 。
2014-12-12
3
定义 4.3 分层随机抽样（ stratified random
sampling ）：如果每层中的抽样都是独立地按照简
单随机抽样进行的，那么这样的分层抽样称为分层
随机抽样，所得的样本称为分层随机样本
（stratified random sample）。
h
2 h
1 fh 2 v y st W v y h W sh nh h 1 h 1
L L 2 h
2014-12-12 16
V yst 的一个无偏估计为：因此，
nh
h
二、对总体总量的估计

总体总量 Y 的估计为：
ˆ ˆ ˆ Y NYst Y h
4

4
4
ˆ v Y ˆ 23208 s Y
ˆ 209650 2 23208 ˆ ts Y Y

2014-12-12
23
三、对总体比例的估计

总体比例P的估计为：pst Wh ph
h 1
L

估计量的性质
对于一般的分层抽样，如果 ph是 P h 的无偏估计（h 1,2,, L ），则 pst 是 P的无偏估计。 p 的方差为：
1 2 3 4
2014-12-12
21
N1 200 W1 0.07018 N 2850 n1 10 f1 0.05 N1 200
N 2850
nh 10
1
N 400 W2 2 0.14035 N 2850
1 n1 n 2 y1 y1i 39.5 s 2 1 y1i y1 1624.722 1 n1 i 1 n 1 i 1
2 L 2 h

L
2 ˆ ˆ N W V Yh N h V Y h h1 h1

hL 1

18
2014-12-12

ˆ 的方差为：性质2：对于分层随机抽样，Y
1 f 2 h ˆ V Y N V yh N Sh nh h1 h1
6
例题

例如，对全国范围汽车运输的抽样调查，调查目的不仅要推算全国货运汽车完成的运量，还要推算不同经济成分（国有、集体、个体）汽车完成的运量。为组织的方便，首先将货运汽车总体按省分层，由各省运输管理部门负责省内的调查工作。各省再将省内拥有的汽车按经济成分分层。为提高抽样效率，再对汽车按吨位分层。例如，某高校对学生在宿舍使用电脑的情况进行调查，根据经验，本科生和研究生拥有电脑的状况差异较大。因此，在抽样前对学生按本科生和研究生进行分层是有必要的。
L 2 h
1 fh PhQh , 说明：当Nh较大时，V ( pst ) W nh h 1
L 2 h
25
例3.2

在例 3.1 的调查中，同时调查了居民户拥有家庭电脑的情况，获得如下数据（单位：台），要估计该地区居民拥有家庭电脑的比例及估计的标准差。
层居民户总数
200 400 750 1500
样本户奶制品年消费支出
1 10 50 180 50 2 40 130 260 35 3 0 60 110 15 4 110 80 0 0 5 15 100 140 20 6 10 55 60 30 7 40 160 200 25 8 80 85 180 10 9 90 160 300 30 10 0 170 220 25
2014-12-12
4
二、作用

由于每层都进行抽样，这就可使样本在总体中分布更加均匀，从而具有更好的代表性。由于抽样在每一层中独立进行，所以一者允许各层选择不同的适合本层的抽样方法，二则可同时对各子总体（层）进行参数估计，而不单是对整个总体的参数进行估计。由于各层的总体方差因单元之间差异小而肯定小于整个总体的方差，而抽样精度与此成正比，所以分层抽样可以提高参数估计的精度。

h

12

st

h 1
h

2014-12-12
性质3：对于分层随机抽样， y st 是 Y y st 的方差为：的无偏估计，

1 fh 2 V yst W V yh W Sh nh h1 h1
L 2 h L 2 h
2014-12-12
13
第三章分层随机抽样
第一节第二节第三节第四节第五节第六节第七节
2014-12-12
定义与符号简单估计量及其性质比率估计量及其性质回归估计量及其性质各层样本量的分配总样本量的确定分层抽样的其他方法
1
第一节一、定义Leabharlann 定义 4.1定义与符号
层：如果一个包含 N 个单位的总体可以
分成“不重不漏”的 L 个子总体，亦即每个单元必属于且仅属于一个子总体，则称这样的子总体为层（stratum ）。设 L 个子总体所包含的单位数分别为 N1, N2 ,
L 2 h L 2 h

2014-12-12
19

性质3：对于分层随机抽样，无偏估计为：
ˆ VY
的一个
1 f h 2 ˆ v Y N v y h N sh nh h 1 h 1
L 2 h L 2 h

2014-12-12
20
例3.1

调查某地区的居民奶制品年消费支出，以居民户为抽样单元，根据经济及收入水平将居民户划分为4层，每层按简单随机抽样抽取 10户，调查获得如下数据（单位：元），要估计该地区居民奶制品年消费总支出及其95%的置信区间。
f2
1 n2 10 0.025 N 2 400
y2 105
2 s2 2166.667
N 750 W3 3 0.26316 N 2850
f3
n3 10 0.0133 N3 750
y3 165
y4 24
2 s3 8205.556
W4
N 4 1500 0.52632 N 2850
2014-12-12

14

性质4：对于分层随机抽样， V yst 的一个无偏估计为：
L 2 h L 2 h
1 fh 2 v y st W v y h W sh nh h 1 h 1
2014-12-12
15
证明性质4：
对于分层随机抽样，各层独立进行简单随机抽样，由第二章性质3,得 V yh 的无偏估计为： v y 1 f h s 2
7
三、符号
所有总体参数的估计量都采用下标“st”以示区别：
记号代表的含义
h
下标
i
下标
Nh
nh
Yhi
yhi
第 h 层的第 h 层的第 h 层第 i 个第 h 层第 i 个
" 第 h 层" " 层内单位号" 单位总数样本数总体单元的取值样本单元取值
记
号
Wh
Nh N
第 h 层的层权
fh
证明性质3：
E y st Y L V y st Wh2V y h
h 1
对于分层随机抽样，各层独立进行简单随机抽样，对每一层有
E y h Yh
因此，由性质1，有
1 fh 2 Sh 由第二章性质2，得 V y h nh L L 2 2 1 fh 2 Sh 因此 V yst Wh V yh Wh nh h1 h1
st
V pst Wh2V ph

e商务文档

第三章分层随机抽样

相关文档推荐：

e商务文档

第三章 分层随机抽样

相关文档推荐：

第三章分层随机抽样