当前位置:文档之家› 分层随机抽样概论

分层随机抽样概论

第三章 分层随机抽样
第一节 分层随机抽样的定义、使用场合以及符号 第二节 估计量及其性质 第三节 样本量的分配原则 第四节 样本量的确定 第五节 分层抽样的若干问题
2021/1/2
1
第一节 引 言
一、定义
在抽样之前,先将总体N个单元划分成L个互不
不重 重复的子总体,每个子总体称为层,它们的大
不漏 小分别为 N1, N2 ,, N L ,这个层合起来就是
层 居民户
总数
1
2
1
200
10
40
2
400
50 130
3
750 180 260
4
1500
50
35
样本户奶制品年消费支出
3
4
5
6
7
8
9
10
0 110
15
10
40
80
90
0
60
80 100
55 160
85 160 170
110
0 140
60 200 180 300 220
15
0
20
30
25
10
30 25
2021/1/2
18
W1
N1 N
200 2850
0.07018
f1
n1 N1
1
10 0.05 n1 20N0 2850
y1 n1 i1 y1i 39.5
nh 10
s12
1 n1 1
n1 i 1
y1i y1 2 1624.722
W2
N2 N
400 2850
0.14035
f2
n2 N2
2021/1/2
h1
9
性质2:对于分层随机抽样, yst 是 Y
的无偏估计,yst 的方差为:
V
yst
L
Wh2V
h1
yh
L
Wh2
h1
1 fh nh
S
2 h
2021/1/2
10
证明性质2:
对于分层随机抽样,各层独立进行简单随机抽
样,对每一层有 Eyh Yh
因此,由性质1,有
E
y
2.精度:尽可能使层内单元的指标值相近,层间 单元的差异尽可能大,从而达到提高抽样估计精 度的目的。
3.估计和精度:既按类型、又按层内单元指标值 相近的原则进行多重分层,同时达到实现估计类 值以及提高估计精度的目的。
4.实施:抽样组织实施的方便,通常按行政管理 机构设置进行分层。
2021/1/2
确定样本量:总的样本量,各层样本量
估计量的方差不仅与各层的方差有关, 还和各层所分配的样本量有关。
实际工作中有不同的分配方法,可以按 各层单元数占总体单元数的比例分配, 也可以采用使估计量总方差达到最小、 费用最小。
2021/1/2
26
【例3.1】
调查某地区的居民奶制品年消费支出, 以居民户为抽样单元,根据经济及收入 水平将居民户划分为4层,每层按简单随 机 抽 样 抽 取 10户 , 调 查 获得如 下数据 (单位:元),要估计该地区居民奶制 品年消费总支出及估计的标准差。
3
750 1 1
0
0 0 0 1 0 10
4 1500 1 0
0
0 0 0 0 0 00
2021/1/2
24
解:由上表可得, p1 0.2 p2 0.2 p3 0.4 p4 0.1
根据前面对各层层权 Wh及抽样比 fh 的计算结果,可得各层估计量的方差:
v p1
1
f1
p1q1 n1 1
st
L
Y
V yst Wh2V yh
h1
由第二章性质2,得 V L
因此 V yst Wh2V
h1
yh yh
1 fh
L nh Wh2
h1
S
2 h
1 fh nh
S
2 h
2021/1/2
11
性质3:对于分层随机抽样, V yst 的一个
无偏估计为:
v yst
L
Wh2v yh
总数
权数
1
2000
0.2
2
3000
0.3
3
5000
0.5
估计方 差
标准 差
常数 与权数 与方
分配
成比例
差成 比例
20 100
60 49
30 100
90 110
34 100
150 141
3.86
3.09 3.11
与Whsh
正比 40 90 170 3
Wshh
2021/1/2
29
一、比例分配
按各层单元数占总体单元数的比例,也 就是按各层的层权进行分配.
0.0169
v p3
1
f
3
p3q3 n3 1
0.0263
v p2 1
v p4 1
f
f
2
4
p2q2 0.0173
np24
1
q4
0.0099
n4 1
因此,该地区居民拥有家庭电脑比例的估计为:
pst
4
Wh ph
h 1
1 N
4
Nh ph
h 1
1 2850
200 0.2 400 0.2 750 0.4 1500 0.1
2021/1/2
27
层 居民 户总 数
权数
1
200 0.07
2
400 0.14
3
750 0.26
4 1500 0.53
2021/1/2
nh nwh
方差
常 数
与权 数成
Wh
sh
40.3
分 配
10
比例
3
46.5 10
6
90.6 10
11
13.9 10
20
s 与 Wh h
正比 3
7
23
7
28
层 居民户
Ph Qh nh
L
Wh2 1 f h
h1
Ph Qh nh
2021/1/2
22
性质9:对于分层随机抽样,V pst 的一个无偏估计为:
v pst
L
Wh2v ph
h1
1
L
N
2 h
1
fh
N2 h1
nh
sh2
L
Wh2 1 f h
h1
phqh nh 1
2021/1/2
分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算。
层内抽样方法可以不同,而且便于抽样 工作的组织。
2021/1/2
3
二、分层原则:
总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个 层或不属于任何一个层。
1.估计:层内单元具有相同性质,通常按调查对 象的不同类型进行划分。
Yst
L WhYh
h1
1 N
L N hYh
h1
分层随机样本,总体均值Y 的简单估计
yst
L
Wh yh
h1
1 N
L
Nh yh
h1
2021/1/2
7
估计量的性质
性质1:对于一般的分层抽样,如果 Yh是 Yh 的
无偏估计( h 1,2,, L
估计。 Yst 的方差为:
),则
Yst
是 Y 的无偏
例如,某高校对学生在宿舍使用电脑的情况进行调查, 根据经验,本科生和研究生拥有电脑的状况差异较大。
因此,在抽样前对学生按本科生和研究生进行分层 是有必要的。
2021/1/2
5
三、符号说明 (关于第h层的记号 )
层号
h 1,2,, L
1 Nh
Yh N h i1 yhi
S
2 h
1 Nh 1
2021/1/2
19
4
Yˆ N h yh h1 200 39.5 400 105 750 165 1500 24
209650
v Yˆ
4
N 2 Wh2v
h 1
yh
4 h 1
N
2 h
1 fh nh
sh2
5.93 108
s Yˆ v Yˆ 23208
Yˆ ts Yˆ 209650 2 23208
23
例3.2
在例3.1的调查中,同时调查了居民户拥有家 庭电脑的情况,获得如下数据(单位:台),
要估计该地区居民拥有家庭电脑的比例及估计 的标准差。
层 居民
样本户拥有家庭电脑情况
户总 数
1
2
3
4 5 6 7 8 9 10
1
200 0 0
0
1 0 0 0 1 00
2
400 0 1
0
0 0 0 0 0 10
2021/1/2
16
性质6:对于分层随机抽样, V Yˆ 的一个
无偏估计为:
v Yˆ
L
N
2 h
v
yh
h1
L h1
N
2 h
1 fh nh
s
2 h
2021/1/2
17
例3.1
调查某地区的居民奶制品年消费支出,以居民户为抽 样单元,根据经济及收入水平将居民户划分为4层,每 层按简单随机抽样抽取10户,调查获得如下数据(单 位:元),要估计该地区居民奶制品年消费总支出及 估计的标准差。
21
性质8:对于分层随机抽样, pst 是 P 的无偏估计,
V
ph
N h nh PhQh Nh 1 nh
相关主题