当前位置:文档之家› 分层抽样

分层抽样

分层抽样
分层抽样
抽样技术作为现代统计学科体系的重要组成部分,被广泛运用到社会实践当 中。自从 1895 年挪威首任中央统计局局长凯尔在伯尔尼第五届国际统计学会会议 上提出所谓“代表性调查”的抽样方法以来,经过 100 多年的理论探讨和时间积 累,抽样理论更加科学,抽样技术日臻完善。抽样又称取样。其原理是从研究的 全部样品中抽取一部分样品单位。从被抽取样品单位的分析、研究结果来估计和 推断全部样品特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效 的工作和研究方法。基本的抽样技术包括简单随机抽样,系统抽样,分层抽样, 多阶段抽样等。在实际的抽样调查中我们常常会根据调查成本,调查规模等结合 运用各种抽样方法进行实践。
然后,在每个层中分别独立地进行抽样。
1-1、分层抽样的总体均值估计
在分层抽样中,对总体均值Y 的估计是通过对各层Yh 的估计,安权层Wh 加权
平均得到的,公式为
Yˆst l WhYˆh 1 l NhYˆh
h1
N h1
如果得到的是分层随机样本,则总体均值Y 的简单估计为
yˆst l Whyh 1 l Nhyh
3
Whsh 0.4920+1.2543+3.0744=4.8207
h1
因此按尼曼分配时,各层应分配的样本量为
n1 n
W1s1
3
Wh sh
40 0.4920 4.0824 4.8207
h1

n2 12.290
n3 23.8235
即各层的样本量分别为 4,12,24.
此时的样本估计量的方差为
3 WhSh
Vopt( yst) h1
ch
3
WhSh
n
h1
ch 1
3
WhSh2 = 0.5726
N h1
(3)尼曼分配 根据比例分配的计算结果,我们可以得到
W1s1 0.15 10.761 0.4920 W2s2 0.25 25.1716 1.2543 W3s3 0.6 26.2549 3.0744
h1
N h1
估计量的性质有
性质 1:对于一般的分层抽样,如果Yh 是Y 的无偏估计(h=1,2,3…,L),则Yˆst 是Y 的无偏估计。Yˆst 的方差为
V (Yˆst) l Wh2V (Yˆh) h1
在分层抽样中只要对各层估计是无偏的,则对总体的估计也是无偏的。因此,
各层可以采用的不同的抽样方法,只要相应的估计量是无偏的则对总体的推算也
数据进行分组,然后再每层进行简单随机抽样即可。层的划分原则为,层内单位
具有相同性质,通常暗点查对象的不同类型进行划分;尽可能使层内单位的标志
值相近,层间单位的差异尽可能大,从而达到提高抽样估计精度的目的;既按类 型又按层内单位标志相近的原则进行多重分层,达到提高估计值以及提高估计精 度的目的。
2-1、抽样设计的基本思路 1. 调查对象(总体):用随机数生成的模拟数据总体 2. 基本抽样方法:分层随机抽样 3. 精度确定:置信水平为 95% 4. 抽样工具和方法:excel 随机数据生成器和抽样函数 5. 估计量的性质分析 6 .样本最优分配的确定 7.分层抽样设计的效果分析
0
6
5
0
5
4
6
4
3
3
5
2 15 48.7 48.7 51.8 57.4 55.9 50.9 48.7 53.4 50.9 52.7
0
3
3
3
2
0
5
3
0
5
0
3 20 51.0 49.9 49.8 44.5 52.0 44.5 54.5 48.8 56.7 56.7
0
3
3
7
1
9
4
6
4
5
5
4 25 46.6 54.5 50.5 44.2 49.6 52.8 49.8 48.7 49.0 44.8
2-2、抽样的实施
1.总体数据的生成
点击 excel2003 菜单栏中的“工具”—“数据分析”,在选择对话框中“随机
数发生器”,选择“随机数发生器”;在弹出窗口中变量个数选择 2,随机个数取 100
个,分布类型选择“正态”,平均值为 50,标准差为 4。
通过上述方法可以得到 200 个随机数据,再对数据进行调整(见附录)。
nh Nh Wh 或 fh nh n f
nn
Nh N
这时
nh n Nh nWh n
对于分层抽样,总体均值Y 的估计量是 yprop y ,总体比例 P 的估计量是
pprop p 1 l ห้องสมุดไป่ตู้h , yprop 的方差为V ( yprop) 1 f
n h1
n
l
WhSh2 , pprop 的方差为
NhSh
h1
h1
这种分配称为尼曼分配。这时, v( yst) 达到最小,称为最小方差。
V min( yst) 1 ( l WhSh)2 1
l
WhSh2
n h1
N h1
二、抽样设计思路和实施方法
通过运用软件随机数生成的方法来对分层抽样方法进一步阐述,这里需要用
到 Excel 随机数生成和抽样的基本方法,对于分层抽样而言,需要对随机生成的
0
1
6
5
2
6
5
7
3
6
8
3.总体均值与总体总量的估计
由上表 2-1 的模拟数据可以分别计算下面的结果,如下表所示:
表 2-2
h
nh
Nh
Wh
fh
yh
Wh yh
s2 h
1
10
100
0.1429 0.1000 50.0107 7.4616 7.4249
2
10
150
0.2413 0.0667 51.9358 12.6256 9.024
各层的层权与抽样比为:
W1
N1 N
0.15
W2
N2 N
0.25
f1
n1 N1
0.3333
f2
n2 N2
0.2
W3
N3 N
0.6
f3
n3 N3
0.05
各层样本的均值及方差如下表所示:
y1
1 n1
ni i 1
y1i
52.495
9
s12
=
1 n1
n1
( y1i
i 1
2
y)
10.76
1
以此类推, y2 49.0822
s22 =25.1716
y3 49.8801
s32 =26.2549
从而,
3
yst Wh yh 50.0730(元) h1
按比例分配时,各层的样本量为
n1 W1n 0.15 40 6
n2 W2n 0.25 40 10
n3 W3n 0.6 40 24
即各层的样本量分别为 6,10,24。
分层抽样,的主要特点就是可以提高估计精度,它不但能对总体进行估计。 同时可以对各层子总体进行估计。如此便于实际中抽样的组织和实施。下面我们 就分层抽样方法展开讨论,运用实例分析进行比较。
一、分层抽样的原理简介
在抽样之前,先将总体 N 个单位划分成 L 个互不重复的子总体,每个子总体
l
成为层,他们的大小分别为 N1, N 2, N 3..., NL ,这 L 层构成整个总体( N Nh )。 h1
sh2
1-3、样本量的分配
分层抽样中,需要研究总样本量 n 一定时各层应该分配多少样本量。因为对
总体进行估计时,估计量的方差不仅与各层的方差有关,还与各层所分配的样本
量有关。实际工作中根据实际需要选取分配方法。
分配方法 1:比例分配
比例分配指的是按各层单位数占总体单位数的比例,也就是按各层的权层进
行分配,即
2.对随机抽样的数据进行实例模拟
假设这 200 个数据是来自于某地区月水电费支出,以居民户为抽样单位,根
据家庭可支配收入划分 4 层,每层按简单随机抽样抽取 10 户,用 Excel 随机抽样
方法得到如下结果:
表 2-1

样本户月水电费支出情况/元
层数 1
2
3
4
5
6
7
8
9 10
1 10 46.3 47.0 52.7 52.5 45.5 51.8 50.2 50.2 51.0 52.5
1-2、分层抽样总体总值的估计
总体总值Y 的估计量为
Yˆ NYˆst l NhYˆh h1
如果得到的是分层随机样本,则总体总值Y 的简单估计为
Yˆ Nyst
估计量的性质有 性质 1:对于一般的分层抽样,如果Yˆst 是Yˆ 的无偏估计,则Yˆ 是Y 的无偏估计。Yˆ 的方差为
V (Yˆ) N 2V (Yˆst) l Nh2V (Yh) l V (Yˆh)
(2)最优分配
对于最优分配,假设 c1 25 , c2 =49, c3 100 ,则可以得到总的成本费用函数为:
3
C c0 chnh h1
最优分配是
N1S1
n1
n
3
c1 19.6824 0.1682 NhSh 117.0064
c h1
h
因此 n1 =6.729 7,同样的可以得到 n2 12 , n3 21。
7
3
4
1
9
43.8 57.4 57.4 47.6 50.5
5
2
2
7
5
50.8 39.7 50.1 57.5 45.2
0
4
8
4
0
8 50.4
1 44.4
相关主题