当前位置:文档之家› 第四章分层随机抽样

第四章分层随机抽样


解: yst W1 y1 W2 y2
23560 15180 148420 9856 10585.39
171980
171980
3、分层随机抽样中,总体比例P的简单估计 设Ph的简单估计为ph,则
L
Wh 2
h1
•1 fh nh
Sh2
L
Wh 2
h1
•1 fh nh

Nh Nh 1
PhQh
10
层 居民
户总 数
1
样本户奶制品年消费支出 23456789
1 200 10 40 0 110 15 10 40 80 90 0 2 400 50 130 60 80 100 55 160 85 160 170 3 750 180 260 110 0 140 60 200 180 300 220 4 1500 50 35 15 0 20 30 25 10 30 25
4627
42
45岁以上
5366
50
总计
35050
320
试估计总体中会计算机者占的比例。
样本中会使 用计算机的
人数
24 12
22
11
4
解:
5
(1) pst Wh ph 0.2286
h1
(2)v( pst )
5
Wh2 (1
h1
fh)
ph (1 ph ) nh 1
0.000534
(3)P置信度为95%的置信区间为:
Vmin ( yst )
L Wh2Sh2
n h1
h
L Wh2Sh2 h1 N
L
( WhSh
h1
L
ch )( WhSh / h1
n
ch )
L
Wh Sh2
h1 N
特例:Neyman分配:
指每层抽取一个单元费用相同(ch c, h 1,, L)时的最优分配。
nh
n
Wh S h
L
, h 1,2,, L
L
6.45, n3 n
W3 s3
L
23.53
Wh sh
Wh sh
h 1
h 1
n4 n
W4 s4
L
7.23
Wh sh
h 1
各层样本量为3、6、24、7。
4.4 样本总量的确定
1.在分层随机抽样中,影响样本总量n的因素: (1)只讨论对总体参数的精度要求; (2)样本量的分配形式。 2.在估计总体均值时,若精度要求给定,样本总量n的确定公式:
u1 2
s
(
y
st
)
2.总体总和Y的估计:

L
Yˆh
L
NhYˆh L
Nh yh
h1
h1
h1
方差V(Yˆ)
L
V(Yˆh)
h1
L h1
N h 2V(yh)
L h1
Nh2
1 fh nh
Sh2
例4.2:调查某地区的居民奶制品年消费支出,以居民户为抽样单元, 根据经济及收入水平将居民户分为4层,每层按简单随机抽样抽 取10户,调查数据如下,估计该地区居民奶制品年消费总支出 及估计的标准差。表:样本户奶制品年消费支出
4.1.2分层抽样的适用场合: (1)不仅需要估计总体参数,也需要估计各层
参数。 (2)便于管理,按现成的地理分布或行政划分
来分层。 (3)希望样本中能包含各个部分,以增加代表
性。 (4)把一个内部差异很大的总体分成几个内部
比较相似的子总体(层)进行分层抽样,可以 提高估计量的精度。如果有极端值,也可以把 它们分离出来形成一层。
解:
y1 39.5
各层样本均值及方差为:y2 105 y3 165
y4 24
s12 1624.722 s22 2166.667 s32 8205.556 s42 193.333
L
(1)Yˆ Nh yh h 1
200 39.5 400 105 750 165 1500 24
sh2
1 nh 1
nh
(yhi
i 1
yh)2
一、分层抽样中
若对任一层,假设为第h层,都有Yˆh NYˆh,
L
Y Yh
h1
(1)Yˆ L Yˆh L NhYˆh
h1
h1
方差V(Yˆ)
L
V(Yˆh)
L
N h 2V(Yˆh)
h1
h1
L
(2)Yˆst
Yˆh
h1
N
L h1
Nh N
Yˆh
Wh S h
h1
在Neyman分配下,Yˆ的方差达到最小值Vm(in yst):
Vm(in yst)
1( n
h
Wh
S
)2
h
1 N
Wh 2 S h 2
h
例.在例4.3中,样本量仍为n=550。
城镇居民23560户,农村居民148420户。
城镇居民与农村居民的年收入的标准差分别为 S1=3000元,S2=2500元。 对城镇居民与农村居民抽样平均每户的费用比 为1:2,
2166.667 6.5330
W3s3
750 2850
8205.556 23.8380
1500 W4s4 2850 193.333 7.3181
L
Whsh 40.51775 h 1
n1 n
W1s1
L
Wh sh
40 2.8286 2.79 40.51775
h1
n2 n
W2 s2
试求城镇与农村两层比例分配与最优分配的 样本量。
又若不考虑费用因素,那么最优分配的结果 如何?
例3.2:调查某地区的居民奶制品年消费支出,以居民户为抽样单元, 根据经济及收入水平将居民户分为4层,每层按简单随机抽样抽 取10户,调查数据如下,估计该地区居民奶制品年消费总支出 及估计的标准差。表:样本户奶制品年消费支出
209650
(2)Yˆ的方差V (Yˆ)的估计:
v(Yˆ )
v(Nyst )
L h 1
Nh2

1
f nh
h
sh
2
5.39 108
s(Yˆ) v(Yˆ) 23208
(3)该地区居民奶制品年消费总支出的置信度为95%的置信区间为

u1 2
s(Yˆ ), Yˆ
u1 2
s(Yˆ )
164162,255138
h1 N
对给定的n
,估计量的方差为
h
V
L h1
Wh
2
1
f nh
h
Sh2
L h1
Wh
2
(
1 nh
1 Nh
)
Sh
2
L Wh2Sh2 L WhSh2
n h1
h
h1 N
(
L h1
WhSh nh
2 L
)(
h 1
2
Chnh )
在最优分配中,Yˆ的方差达到最小值Vmin ( yst ):
yhi
y
1 f
n
l
Wh S h2
h1
1 n
f
l
S
2 w
,
其中S
2 w
Wh S h2为各层方差按层权的加权平均。
h1
例:假设某公司欲估计某类产品的用户的每年平均支出。企划人员 拟就整个潜在用户的名单,共8000户。

每层中的潜在用户
少用 中等 多用 总和
2000 4000 2000 N=8000
例4.3:某市进行家庭收入调查,分城镇居民及农村居 民两部分抽样,在全部城镇居民23560户中随机抽取 300户,在全部农村居民148420户中随机抽取250户, 调查结果是城镇年平均户收入为15180元,标准差为 2972元;农村年平均户收入为9856元,标准差为 2546元。求全市年平均户收入的置信度为90%的置信 区间。
L WhYˆh
h1
方差V(Yˆst) L Wh2V (Yˆh ) h1
分层随机抽样, 则Yˆh的简单估计为yh
1.Y的无偏简单估计Yˆst为:yst L WhYˆh L Wh yh ,Yˆst记为yst
h1
h1
Y 的置信度为1 的置信区间为:
yst
u1 s( yst ), 2
yst
3
3
sw2 Whsh2 Wh phqh
h 1
h 1
48107 0.27 0.73 12419 0.18 0.82 6875 0.17 0.83
67401
67401
67401
0.182
s( pst )
v( pst )
1 f n
sw2
1 1500 67401 0.182 0.011 1500
L
C c0 chnh h1
1.比例分配:指按各层层权(各层单元数占总体单元数的比例)进行
分配。
nh n
Nh N
Wh
fh
nh Nh
n N
f
L
则:y prop Wh yh
h1
L h1
Nh N
•1 nh
nh i 1
yhi
L h1
nh n
•1 nh
nh i 1
yhi
1 n
L h1
nh i 1
每个县的户数 Nh
48107 12419 6875 N=67401
每个县被抽出 的户数nh
1071 276 153
n=1500
每个县的样本收 视率 ph
0.27 0.18 0.17
相关主题