当前位置:文档之家› 抽样设计理论与方法研究1

抽样设计理论与方法研究1


2
YˆHH )
(24)
对不放回地不等概率抽样,采用Horvitz-Thompson
估计量
YˆHT
1 n
n i 1
yi
i
32
(四)整群抽样
1、定义:由若干个有联系的基本单元组成 的集合称为群,抽样时以群为抽样单元的 抽样方法就称为整群抽样。
整群抽样示意图:
黄色为总体 红色为群 白点为基本单元
33
• 参考文献
2
一、调查的主要组成部分
▪ 调查概述 ▪ 调查设计 ▪ 数据的收集方法 ▪ 调查问卷设计 ▪ 抽样方法 ▪ 抽样估计 ▪ 样本量的确定 ▪ 数据收集的实施 ▪ 数据处理 ▪ 数据发布与数据分析
3
调查概述
• 调查指使用明确的概念、方法和程序,以有组织、有条理 的方式,从一个总体的部分或所有单元中收集感兴趣的指 标信息,并将这些信息综合编辑成有用的简要形式的所有 活动。
14
数据发布与数据分析
调查报告 统计表和统计图 数据分析 保密和泄密控制
15
抽样设计的理论和方法
• 抽样调查中的一些基本概念
总体和样本:总体是指研究对象的全体`,它是 由研究对象中的单元组成的。总体中单元的数 目称作总体容量;样本是指抽样时按照抽样的 规则所抽中的那部分单元所组成的集合。
总体
抽取样本 推断总体
整群抽样的优点:
(1)能大大减低收集数据的费用;(2)当总体单元 自然形成的群时,容易取得抽样框,抽样也更容易; (3)当群内单元差异大,而不同群之间的差异小时, 可以提高效率。
缺点:
(1)若群内个单元有趋同性,效率将会降低;(2) 通常无法预先知道总样本量,因为不知道群内有多少 单元;(3)方差估计比简单随机抽样更为复杂 可以综合利用分层和整群抽样技术,采取分层整群抽 样,比如人体尺寸调查,采用分层提高样本代表性, 采用整群抽样,便于数据的收集。
V (YˆR )
N 2 (1 n
f
)
N i 1
(Yi RX i )2 N 1
;
V
(
Rˆ )
1 xX
f
2
N
(YiΒιβλιοθήκη RXi)2
i 1
.
N 1
(16) (17)
28
对于实际问题的方差估计,仍用样本估计,用
估计 。 1 N 1
N i 1
(Yi
2
RX i )
1
n 1
n i 1
( yi
若 y1, y2 ,, yn 是按 Zi 的入样概率进行的多项抽样
抽取的样本指标值,相应的Zi 值为 z1, z2 ,, zn 。
则总体总和的估计(Hansen-Hurvitz估计)为
YˆHH
是无偏的,且有方差估计
1 n
n i 1
yi zi
(23)
v(YˆHH )
1 n(n 1)
n ( yi z i1 i
)
(20)
如回归系数为1,称为差估计量。
29
如回归估计量采用样本回归系数
n
( yi y)(xi x)
b i1 n
(xi x)2 则总体均值的回归估计量为i1
(21)
ylr y b( X x) y b(x X ), (22)
基本性质:
E( ylr ) Y
O(1) n
MSE(
采用圆形系统抽样方法。
37
2、系统抽样的优点
(1)没有抽样框时可代替简单随机抽样方法简单; (2)不需要辅助的抽样框信息;(3)样本的分 布比较好;估计值容易计算。
3、系统抽样的缺点
(1)若抽样间隔与总体的某种周期性变化一致, 会得一个差的样本;(2)不使用辅助信息使抽样 效率不高;(3)使用概念框时,不能预先知道样 本量;(4)没有一个无偏的方差估计量;(5) 当N不能被n整除时会得到样本量不同的样本。
用较高;(3)有可能抽到较差的样本;(4)抽 选大样本比较费时
21
(二)分层抽样
定义:在抽样之前将总体分为同质的、 互不重叠的若干子总体,也称为层。然 后在每一个层独立地随机抽取样本。 分层抽样示意图
22
首先介绍分层抽样的的一些符号:
用下标h表示层的编号 (h 1,2,, L)
用 Yhi , yhi 分别表示总体和样本中第h层第i个
N
(Yi
i 1
2
Y)
(7)
估计量的方差估计
v( y) s2 (1 f )
(8)
n
s2
1 n 1
n i 1
( yi
2
y)
(9)
20
简单随机抽样的特点
• 优点: (1)比较容易理解和掌握;(2)抽样框不需要
其他辅助信息;(3)理论上比较成熟,有现成 的方差估计公式。
• 缺点: (1)没有利用辅助信息;(2)样本分散,面访费
抽样设计的理论与方法
中国科学院 数学与系统科学研究院
杨军
联系方式: yangjun@
1
报告提纲
• 首先简单介绍调查的基本概念和主要组 成部分,以对抽样调查有个总体认识
• 讲述抽样调查中的抽样设计,包括各种 抽样设计与相应的估计方法以及辅助信 息的利用,重点是简单随机抽样、分层 抽样、整群抽样、系统抽样、多相抽样
数据处理
数据处理的简要过程 1、全面核查问卷上的数据 2、对问卷上的回答进行编码 3、将数据录入计算机 4、详细审核、插补 5、进行离群值的检测 6、将数据储存在数据库中
13
数据处理
数据处理的简要过程 1、全面核查问卷上的数据 2、对问卷上的回答进行编码 3、将数据录入计算机 4、详细审核、插补 5、进行离群值的检测 6、将数据储存在数据库中
2、优缺点:优点是当研究的变量与单元大小有关 时,由于使用了辅助信息,可以提高抽样效率。 但缺点是对抽样框需要有高质量的抽样框,成本 较高;对于单元大小不相关的变量就不适用;估 计量的抽样方差估计比较复杂。
31
pps抽样是一种特殊的不等概率抽样,对放回地不等
概率抽样,介绍Hansen-Hurvitz估计量。
i 1
i 1
23
分别为h层的(层内)方差和样本方差 下面介绍分层抽样适用的场合和优点 1)在调查中不仅需要对总体进行参数估计,
也需要对层的参数进行估计。 2)使样本更具代表性。 3)便于组织管理和数据汇总 4)对不同层可以按照不同情况和条件,具体
采用不同的抽样方法。 5)分层抽样可以提高估计量的精度
2
Rˆxi )
(18)
对分层抽样,比估计有分别比和联合比两种形式。
回归估计及其基本性质
对简单随机抽样,总体均值的回归估计定义为
ylr y ( X x) y (x X ), (19) 若回归系数设定,则回归估计为无偏估计,且其方差
估计可表示为
v(
ylr
)
1
n
f
(
s
2 y
2
s
2 x
2s yx
• 调查的重要性。调查是认识客观世界的一种手段,通过调 查获取信息,了解现状,进行管理决策和预测。
• 调查的任务。科学地反映客观情况,为解决问题、制定政 策或策略提供依据,调查是为决策服务。
调查设计
调查前准备
调查的实施
调查的 分析与报告
4
调查设计
调查目标的确定 调查方法的选择 抽样设计的有关问题 调查中各种误差及其控制
可能降低;
(4)估计值的计算比简单随机抽样复杂
26
比估计和回归估计-利用辅助信息
比估计和回归估计主要是利用辅助变量来
提高估计精度
比估计及其基本性质
如果 Yi , X i 之间大致呈正比例关系,采用比估计量
对简单随机抽样,总体均值和总量的比估计量为
yR
y x
X
y x
X;
(14)
YˆR
y x
X
y x
X
估计量及其性质
24
总体均值的估计
Yˆst
L WhYˆh
h1
1 N
L N hYˆh
h1
对分层随机抽样,有如下简单估计
yst
L
Wh yh
h1
1 N
L
Nh yh
h1
总体总和的简单估计为
Yˆst Nyst L N h yh h1
(10) (11) (12)
无偏性:如果层的估计具有无偏性,分层的总 体总量和总体均值的估计具有无偏性。
5
数据的收集方法
1、邮寄调查:被调查者在没有访员协助下完成问卷。 2、人员面访:由调查人员协助完成问卷。 3、电话访问:访员通过电话协助被调查者完成问卷。 4、网络调查:调查者利用网络进行调查。
6
调查问卷设计
• 问卷的作用与设计原则 • 问卷结构与问题类型 • 问卷设计的技巧 • 问卷的度量方法
缺点: (1)效率不如简单随机抽样;(2)通常不能提 前知道最终的样本量;(3)调查的组织较整群 抽样复杂;(4)估计值与抽样方差的计算较为复杂。
36
(六)系统抽样
定义:又称等距抽样,对研究的总体按一定 的顺序排列,每隔一定的间隔抽取一个单元 的抽样方法。 抽选方法:设总体单元数为N,要抽n个单元 为样本,先计算抽样间隔k=N/n,在1到k之间 抽取一个随机起点r,则被抽中单元的顺序位 置是:r,r+k,r+2k,…。当N不能被n整除时,
样本
16
研究的目标参数: 总体总量、总体均值、总体比例的估计
及其相应的方差估计
入样概率与抽样比 入样概率是指某个总体单元被选入样本的概率 抽样比:指样本量 n 与总体的容量N的比例
下面介绍主要抽样方法与相应的估计方法:
相关主题