当前位置：文档之家› 分层抽样

分层抽样

分层抽样
分层抽样
抽样技术作为现代统计学科体系的重要组成部分，被广泛运用到社会实践当中。自从 1895 年挪威首任中央统计局局长凯尔在伯尔尼第五届国际统计学会会议上提出所谓“代表性调查”的抽样方法以来，经过 100 多年的理论探讨和时间积累，抽样理论更加科学，抽样技术日臻完善。抽样又称取样。其原理是从研究的全部样品中抽取一部分样品单位。从被抽取样品单位的分析、研究结果来估计和推断全部样品特性，是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。基本的抽样技术包括简单随机抽样，系统抽样，分层抽样，多阶段抽样等。在实际的抽样调查中我们常常会根据调查成本，调查规模等结合运用各种抽样方法进行实践。
然后，在每个层中分别独立地进行抽样。
1-1、分层抽样的总体均值估计
在分层抽样中，对总体均值Y 的估计是通过对各层Yh 的估计，安权层Wh 加权
平均得到的，公式为
Yˆst l WhYˆh 1 l NhYˆh
h1
N h1
如果得到的是分层随机样本，则总体均值Y 的简单估计为
yˆst l Whyh 1 l Nhyh
3
Whsh 0.4920+1.2543+3.0744=4.8207
h1
因此按尼曼分配时，各层应分配的样本量为
n1 n
W1s1
3
Wh sh
40 0.4920 4.0824 4.8207
h1
故
n2 12.290
n3 23.8235
即各层的样本量分别为 4,12,24.
此时的样本估计量的方差为
3 WhSh
Vopt( yst) h1
ch
3
WhSh
n
h1
ch 1
3
WhSh2 = 0.5726
N h1
（3）尼曼分配根据比例分配的计算结果，我们可以得到
W1s1 0.15 10.761 0.4920 W2s2 0.25 25.1716 1.2543 W3s3 0.6 26.2549 3.0744
h1
N h1
估计量的性质有
性质 1：对于一般的分层抽样，如果Yh 是Y 的无偏估计（h=1,2,3…，L）,则Yˆst 是Y 的无偏估计。Yˆst 的方差为
V (Yˆst) l Wh2V (Yˆh) h1
在分层抽样中只要对各层估计是无偏的，则对总体的估计也是无偏的。因此，
各层可以采用的不同的抽样方法，只要相应的估计量是无偏的则对总体的推算也
数据进行分组，然后再每层进行简单随机抽样即可。层的划分原则为，层内单位
具有相同性质，通常暗点查对象的不同类型进行划分；尽可能使层内单位的标志
值相近，层间单位的差异尽可能大，从而达到提高抽样估计精度的目的；既按类型又按层内单位标志相近的原则进行多重分层，达到提高估计值以及提高估计精度的目的。
2-1、抽样设计的基本思路 1. 调查对象（总体）：用随机数生成的模拟数据总体 2. 基本抽样方法：分层随机抽样 3. 精度确定：置信水平为 95% 4. 抽样工具和方法：excel 随机数据生成器和抽样函数 5. 估计量的性质分析 6 .样本最优分配的确定 7.分层抽样设计的效果分析
0
6
5
0
5
4
6
4
3
3
5
2 15 48.7 48.7 51.8 57.4 55.9 50.9 48.7 53.4 50.9 52.7
0
3
3
3
2
0
5
3
0
5
0
3 20 51.0 49.9 49.8 44.5 52.0 44.5 54.5 48.8 56.7 56.7
0
3
3
7
1
9
4
6
4
5
5
4 25 46.6 54.5 50.5 44.2 49.6 52.8 49.8 48.7 49.0 44.8
2-2、抽样的实施
1.总体数据的生成
点击 excel2003 菜单栏中的“工具”—“数据分析”，在选择对话框中“随机
数发生器”,选择“随机数发生器”；在弹出窗口中变量个数选择 2，随机个数取 100
个，分布类型选择“正态”，平均值为 50，标准差为 4。
通过上述方法可以得到 200 个随机数据，再对数据进行调整（见附录）。
nh Nh Wh 或 fh nh n f
nn
Nh N
这时
nh n Nh nWh n
对于分层抽样，总体均值Y 的估计量是 yprop y ，总体比例 P 的估计量是
pprop p 1 l ห้องสมุดไป่ตู้h ， yprop 的方差为V ( yprop) 1 f
n h1
n
l
WhSh2 ， pprop 的方差为
NhSh
h1
h1
这种分配称为尼曼分配。这时， v( yst) 达到最小，称为最小方差。
V min( yst) 1 ( l WhSh)2 1
l
WhSh2
n h1
N h1
二、抽样设计思路和实施方法
通过运用软件随机数生成的方法来对分层抽样方法进一步阐述，这里需要用
到 Excel 随机数生成和抽样的基本方法，对于分层抽样而言，需要对随机生成的
0
1
6
5
2
6
5
7
3
6
8
3.总体均值与总体总量的估计
由上表 2-1 的模拟数据可以分别计算下面的结果，如下表所示：
表 2-2
h
nh
Nh
Wh
fh
yh
Wh yh
s2 h
1
10
100
0.1429 0.1000 50.0107 7.4616 7.4249
2
10
150
0.2413 0.0667 51.9358 12.6256 9.024
各层的层权与抽样比为：
W1
N1 N
0.15
W2
N2 N
0.25
f1
n1 N1
0.3333
f2
n2 N2
0.2
W3
N3 N
0.6
f3
n3 N3
0.05
各层样本的均值及方差如下表所示：
y1
1 n1
ni i 1
y1i
52.495
9
s12
=
1 n1
n1
( y1i
i 1
2
y)
10.76
1
以此类推， y2 49.0822
s22 =25.1716
y3 49.8801
s32 =26.2549
从而，
3
yst Wh yh 50.0730（元） h1
按比例分配时，各层的样本量为
n1 W1n 0.15 40 6
n2 W2n 0.25 40 10
n3 W3n 0.6 40 24
即各层的样本量分别为 6,10,24。
分层抽样，的主要特点就是可以提高估计精度，它不但能对总体进行估计。同时可以对各层子总体进行估计。如此便于实际中抽样的组织和实施。下面我们就分层抽样方法展开讨论，运用实例分析进行比较。
一、分层抽样的原理简介
在抽样之前，先将总体 N 个单位划分成 L 个互不重复的子总体，每个子总体
l
成为层，他们的大小分别为 N1, N 2, N 3..., NL ，这 L 层构成整个总体（ N Nh ）。 h1
sh2
1-3、样本量的分配
分层抽样中，需要研究总样本量 n 一定时各层应该分配多少样本量。因为对
总体进行估计时，估计量的方差不仅与各层的方差有关，还与各层所分配的样本
量有关。实际工作中根据实际需要选取分配方法。
分配方法 1：比例分配
比例分配指的是按各层单位数占总体单位数的比例，也就是按各层的权层进
行分配，即
2.对随机抽样的数据进行实例模拟
假设这 200 个数据是来自于某地区月水电费支出，以居民户为抽样单位，根
据家庭可支配收入划分 4 层，每层按简单随机抽样抽取 10 户，用 Excel 随机抽样
方法得到如下结果：
表 2-1
户
样本户月水电费支出情况/元
层数 1
2
3
4
5
6
7
8
9 10
1 10 46.3 47.0 52.7 52.5 45.5 51.8 50.2 50.2 51.0 52.5
1-2、分层抽样总体总值的估计
总体总值Y 的估计量为
Yˆ NYˆst l NhYˆh h1
如果得到的是分层随机样本，则总体总值Y 的简单估计为
Yˆ Nyst
估计量的性质有性质 1：对于一般的分层抽样，如果Yˆst 是Yˆ 的无偏估计，则Yˆ 是Y 的无偏估计。Yˆ 的方差为
V (Yˆ) N 2V (Yˆst) l Nh2V (Yh) l V (Yˆh)
（2）最优分配
对于最优分配，假设 c1 25 ， c2 =49， c3 100 ，则可以得到总的成本费用函数为：
3
C c0 chnh h1
最优分配是
N1S1
n1
n
3
c1 19.6824 0.1682 NhSh 117.0064
c h1
h
因此 n1 =6.729 7，同样的可以得到 n2 12 ， n3 21。
7
3
4
1
9
43.8 57.4 57.4 47.6 50.5
5
2
2
7
5
50.8 39.7 50.1 57.5 45.2
0
4
8
4
0
8 50.4
1 44.4

e商务文档

分层抽样

相关文档推荐：