当前位置:文档之家› 第三章 分层随机抽样

第三章 分层随机抽样

N1 N2 NL N
NL ,则有:
2014-12-12
2
定义 4.2 分层抽样(stratified sampling) :又称为类型 抽样或分类抽样。即抽样在每一层中独立进行,总的样 本由各层样本组成, 总体参数则根据各层样本参数的汇 总做出估计,这种抽样就称为分层抽样,所得样本称为 分层样本。设总的样本量为 n ,从 L 个子总体中所抽取的 样本量分别为 n1 , n2 , nL ,则有: n1 n2
W 2V Y V Y h h st
h1

L


只要对各层估计无偏,则总体估计也无偏。

各层可以采用不同的抽样方法,只要相应的估计量是无 偏的,则对总体的推算也是无偏的。
11
2014-12-12
证明性质1
由于对每一层有
ˆ Y EY h h

L L ˆ ˆ ˆ E Y E W Y W E Y st h h h h 因此, h1 h1

L
如果得到的是分层随机样本,则总体总 量的简单估计为:
h 1
Ny Y st
2014-12-12 17
2.估计量的性质
性质1:对于一般的分层抽样,如果 ˆ 是 Y 的无偏估 Yst 是 Y 的无偏估计,则 Y ˆ 的方差为: 计。Y

2 ˆ ˆ ˆ V Y N V Yst V Y h
L


1 L 1 L Y WhYh N hYh Yh Y N h1 N h1 N h 1 估计量的方差 L L L L 2 ˆ ˆ ˆ ˆ ,Y ˆ V Yst V WhYh Wh V Yh 2WhWk Cov Y h k h 1 k h h1 h1 由于各层是独立抽取的,因此上式第二项中的协方差全 L ˆ W 2V Y ˆ 为0,从而有 V Y
nL n 。
2014-12-12
3
定 义 4.3 分 层 随 机 抽 样 ( stratified random
sampling ):如果每层中的抽样都是独立地按照简
单随机抽样进行的,那么这样的分层抽样称为分层
随机抽样,所得的样本称为分层随机样本
(stratified random sample)。
h
2 h
1 fh 2 v y st W v y h W sh nh h 1 h 1
L L 2 h
2014-12-12 16
V yst 的一个无偏估计为: 因此,
nh
h
二、对总体总量的估计

总体总量 Y 的估计为:
ˆ ˆ ˆ Y NYst Y h
4

4
4
ˆ v Y ˆ 23208 s Y
ˆ 209650 2 23208 ˆ ts Y Y

2014-12-12
23
三、对总体比例的估计

总体比例P的估计为:pst Wh ph
h 1
L

估计量的性质
对于一般的分层抽样,如果 ph是 P h 的无偏估计 (h 1,2,, L ),则 pst 是 P的无偏估计。 p 的方差为:
1 2 3 4
2014-12-12
21
N1 200 W1 0.07018 N 2850 n1 10 f1 0.05 N1 200
N 2850
nh 10
1
N 400 W2 2 0.14035 N 2850
1 n1 n 2 y1 y1i 39.5 s 2 1 y1i y1 1624.722 1 n1 i 1 n 1 i 1
2 L 2 h


L
2 ˆ ˆ N W V Yh N h V Y h h1 h1

hL 1


18
2014-12-12

ˆ 的方差为: 性质2:对于分层随机抽样,Y
1 f 2 h ˆ V Y N V yh N Sh nh h1 h1
6
例题


例如,对全国范围汽车运输的抽样调查,调查目的不 仅要推算全国货运汽车完成的运量,还要推算不同经 济成分(国有、集体、个体)汽车完成的运量。 为组织的方便,首先将货运汽车总体按省分层,由 各省运输管理部门负责省内的调查工作。 各省再将省内拥有的汽车按经济成分分层。 为提高抽样效率,再对汽车按吨位分层。 例如,某高校对学生在宿舍使用电脑的情况进行调查, 根据经验,本科生和研究生拥有电脑的状况差异较大。 因此,在抽样前对学生按本科生和研究生进行分层 是有必要的。
L 2 h
1 fh PhQh , 说明: 当Nh较大时,V ( pst ) W nh h 1
L 2 h
25
例3.2

在例 3.1 的调查中,同时调查了居民户拥有家 庭电脑的情况,获得如下数据(单位:台), 要估计该地区居民拥有家庭电脑的比例及估计 的标准差。
层 居民户 总数
200 400 750 1500
样本户奶制品年消费支出
1 10 50 180 50 2 40 130 260 35 3 0 60 110 15 4 110 80 0 0 5 15 100 140 20 6 10 55 60 30 7 40 160 200 25 8 80 85 180 10 9 90 160 300 30 10 0 170 220 25
2014-12-12
4
二、作用



由于每层都进行抽样,这就可使样本在总体中分布 更加均匀,从而具有更好的代表性。 由于抽样在每一层中独立进行,所以一者允许各层 选择不同的适合本层的抽样方法,二则可同时对各 子总体(层)进行参数估计,而不单是对整个总体 的参数进行估计。 由于各层的总体方差因单元之间差异小而肯定小于 整个总体的方差,而抽样精度与此成正比,所以分 层抽样可以提高参数估计的精度。


h

12

st

h 1
h

2014-12-12
性质3:对于分层随机抽样, y st 是 Y y st 的方差为: 的无偏估计,

1 fh 2 V yst W V yh W Sh nh h1 h1
L 2 h L 2 h
2014-12-12
13
第三章 分层随机抽样
第一节 第二节 第三节 第四节 第五节 第六节 第七节
2014-12-12
定义与符号 简单估计量及其性质 比率估计量及其性质 回归估计量及其性质 各层样本量的分配 总样本量的确定 分层抽样的其他方法
1
第一节一、定义Leabharlann 定义 4.1定义与符号
层:如果一个包含 N 个单位的总体可以
分成“不重不漏”的 L 个子总体,亦即每个单元必属于 且仅属于一个子总体, 则称这样的子总体为层 (stratum ) 。 设 L 个子总体所包含的单位数分别为 N1, N2 ,
L 2 h L 2 h

2014-12-12
19

性质3:对于分层随机抽样, 无偏估计为:
ˆ VY
的一个
1 f h 2 ˆ v Y N v y h N sh nh h 1 h 1
L 2 h L 2 h

2014-12-12
20
例3.1

调查某地区的居民奶制品年消费支出,以居民户为抽 样单元,根据经济及收入水平将居民户划分为4层,每 层按简单随机抽样抽取 10户,调查获得如下数据(单 位:元),要估计该地区居民奶制品年消费总支出及 其95%的置信区间。
f2
1 n2 10 0.025 N 2 400
y2 105
2 s2 2166.667
N 750 W3 3 0.26316 N 2850
f3
n3 10 0.0133 N3 750
y3 165
y4 24
2 s3 8205.556
W4
N 4 1500 0.52632 N 2850
2014-12-12

14

性质4:对于分层随机抽样, V yst 的一个 无偏估计为:
L 2 h L 2 h
1 fh 2 v y st W v y h W sh nh h 1 h 1
2014-12-12
15
证明性质4:
对于分层随机抽样,各层独立进行简单随 机抽样,由第二章性质3,得 V yh 的无偏 估计为: v y 1 f h s 2
7
三、符号
所有总体参数的估计量都采用下标“st”以示区别:
记 号 代表的含义
h
下标
i
下标
Nh
nh
Yhi
yhi
第 h 层的 第 h 层的 第 h 层第 i 个 第 h 层第 i 个
" 第 h 层" " 层内单位号" 单位总数 样本数 总体单元的取值 样本单元取值


Wh
Nh N
第 h 层的 层权
fh
证明性质3:
E y st Y L V y st Wh2V y h
h 1
对于分层随机抽样,各层独立进行简单随机抽样, 对每一层有
E y h Yh
因此,由性质1,有
1 fh 2 Sh 由第二章性质2,得 V y h nh L L 2 2 1 fh 2 Sh 因此 V yst Wh V yh Wh nh h1 h1
st
V pst Wh2V ph
相关主题