第8章 抽样设计
又叫多重抽样,先抽取一有很多单位的大样本,收集 基本信息,然后在这个大样本中抽一个子样本,收集 更详细的信息。第一相收集的数据能够用于分层及筛 选信息,同时也可以用来提高估计的效率。 适用于抽样框缺乏辅助信息,而想对总体进行分层或 筛选部分总体的情况。如:养牛场信息调查。 适用于预算不足,或工作量太大,或调查内容中项目 数据收集成本差异太大。如:健康调查。
14
抽样框的评估
1.抽样框的可能缺陷
不完全覆盖(如新注册成立的公司) 过涵盖(如破产注销的公司) 重复 分类错误
15
2.合格抽样框的标准
关联性:抽样框与目标总体对应的程度和据此与目标 总体的个体接触难易程度的一种度量。 精确性:涵盖误差、分类误差、联系资料。 时效性:抽样框的更新日期与调查标准日期的接近程 度来计量。 费用大小:衡量建立抽样框花费的总费用;并与本次 调查的总费用进行比较。
39
缺点:
注册会计师的审计PPS抽样例子
40
6.其他概率抽样方法
1)多阶段抽样
两个或以上连续阶段抽取样本的过程。第一阶段抽取的单位 成为初级单位,第二阶段抽取的单位称为次级抽样单位,以 此类推。 例如:第一阶段:地理区域,第二阶段:小区内住所; 例如:第一阶段:时间单位,第二阶段:乘客;若更复杂则 第二阶段:达到的客机,第三级单位:飞机上实际座位。
3.分层抽样
又叫分类随机抽样,指将调查总体中的所有单位按照 一定的属性或特征分为不相重叠的若干层次(或类 别),然后每一个层次中进行简单随机抽样或等距抽 样。 对总体分层的标志为总体的某种重要属性或特征。 分层的目的是使样本在各层、类中分布均匀,具有更 好代表性,因此层间要差别明显,层内应保持一致性。
35
分群抽样与分层抽样的比较
层 内 差 异 小 层间差异大
a
a a a
a
a a
a
a a a
b b
b
b
b b
层2
c c c c c c c c c c c c
层3
层1
分层抽样的各层
群 内 差 异 大 群间差异小
a a a c b b b c d a c b a c b c a c b b a b a c b c a c b
缺点:
37
5.与个体成大小比例的概率抽样(PPS)
PPS(Probability Proportionate to Size Sampling) 抽样是一种使用辅助信息从而使入样概率不相等(每 个单位按其规模大小成比例的被抽中概率 )的抽样技 术。 PPS抽样可以如同大海捞针一样发现极少量的大额错报 (不适合测试低估),原因在于它通过将少量的大额 实物单元拆成数量众多、金额很小的货币单元,从而 赋予大额项目更大的机会被选入样本。
; 更高的代表性,避免产生“差的”样本; 操作和管理简便; 在不同层可以采用不同抽样框和抽样方法。 抽样框单元辅助信息; 费用高,复杂; 如果调查变量与分层变量不相关,统计效率可能比简单随 机抽样更低; 估计值计算比简单随机抽样和系统抽样稍复杂。
34
缺点:
优点:
简单、典型、易于理解; 抽样框不需要其他信息就能进行抽样; 理论成熟,样本推断总体比较可靠; 构建抽样框可能较困难;
样本可能很大、地理可能很分散,增加了时间和成本;
不足:
精度较低; 样本不一定具有很好的代表性。
23
2.系统抽样(SYS)
又叫等距抽样或机械抽样,指将调查总体单位按照一 定标志进行顺序排列,然后根据总体单位数和样本单 k k 位数计算抽样间距( ),并从抽样框中每隔 个单位 抽选一个个体,组成样本。
群3
a b
c a
群2
群1
分群抽样的各群
36
整群抽样的优缺点
优点:
大大减低调查费用; 总体单位自然聚合时,按外观或地域标准创建群组比简单随 机抽样或系统抽样更容易; 群内单元差异大、群间差异小,效率更高。 如群内调查单元趋同(群内差异小),则效率较低; 无法明确调查样本数目; 组织较为复杂。 方差估计可能较简单随机抽样复杂。
11
抽样框的类型
1.名录框
一份涵盖所有总体中个体的实际的或概念的名录清单。 概念名录框:某天早上8点-9点之间进入某购物中心停 车场的所有车辆名录,是临时性的。 实际名录框:各级政府或特定机构因各自的管理需要 都保存一些名录,是对抽样框进行维护的最有效资料 来源。如生命统计等登记、商业注册、地址邮政编码 册、电话号码薄。
抽样间距( k) 总体单位数( N) 样本单位数( n)
总体单位:50000 样本量:500 抽样间距:50000/500=100 在1~100中随机确定一个初始单位如36,则可以确定其他样本序号
24
四舍五入
系统抽样中,总体单位的排列顺序决定了按抽样间距所抽 取样本的代表性。 1)排序指标与需要研究特征无关,则与简单随机抽样 类似; 2)排序指标与需要研究的特征有关,增加代表性; 3)如果总体排序呈现循环特征,抽样间距如与循环周 期相同则降低代表性。
4.整群抽样
指首先将调查总体区分为若干群,然后采用简单随机 抽样方法抽出一部分群作为样本,最后对这些样本群 进行全面调查。 整群抽样与分层抽样的区别:
1)分层标准是与调查主题内容密切相关的总体属性或特征, 整群抽样标准则是调查总体的外部标志(区域) 2)分层抽样层内差异小,整群抽样群间差异小,都可以采 取简单随机抽样 3)适用性不同
3
2、相对劣势
(1)不支持小区域估计 (2)不支持稀少个体的特征估计 (3)调查误差 (4)其他考虑
4
抽样设计的程序
5
程序1:定义目标总体
(注意跟调查总体的区别)
定义目标总体的四个因素:
总体中个体的类型。个人、家庭还是企业单位; 个体的特征。包括人口统计特征、行为甚至心理特征; 个体地理位置。即区域范围; 调查的标准时点或时期。
19
概率抽样方法
1.简单随机抽样 2.系统抽样 3.分层抽样 4.整群抽样 5.与个体成大小比例的概率抽样 6.其他概率抽样方法
20
1.简单随机抽样(SRS)
按照随机原则,从总体中不加任何分组、分类、排序 等先行工作,直接地抽取样本,适合于均匀总体。 重复抽样 非重复抽样
27
1)分层比例抽样
分层比例抽样法就是按照每个层次单位的数量占总体单位数的 比重,等比例地分配各层的样本单位数。计算公式:
ni n( Ni / N )
N ——总体单位数;
Ni ——第i层总单位数;
n ——样本总数; ni ——第i层抽取样本单位数。
28
例子
29
2)纽曼分层抽样
不是简单按照各层单位数占总体单位数的比例分配样本数量,而 是结合考虑其他因素调整各层的样本单位数,如重要性、差异性 等。 理由:①照顾比例小的层或类;②增加异质性较大的层或类的单 位数;③增加重要的层或类的样本单位。
21
简单随机抽样——随机数表法 [P366附录B-1]
1. 将总体进行编号,并确定样本量; 2. 确定使用随机数的哪几位数字作为样本编号; 3. 随机选择选样的起点、方向,抽取样本; 4.对于符合要求的单位作为一个样本,对于重复的单位只取一个后 补充增加。
22
简单随机抽样的优点和不足
25
系统抽样的优点和不足
优点:
没有抽样框时,可以代替简单随机抽样; 不需要抽样辅助信息; 与简单随机抽样相比,系统抽样样本分布较好 成熟的理论,估值容易; 简单、成本低、容易实现。 周期性; 抽样效率不高;
26
不足:
分层抽样
分层比例抽样 纽曼分层抽样 德明分层抽样 多次分层抽样
41
多阶段抽样的优缺点
优点:
群变量同质时,多阶段抽样比整群抽样效率高; 样本分布比简单随机抽样集中,所需时间和费用低; 不需要整个总体的抽样框。
缺点:
比简单随机抽样效率低; 不能提前知道多阶段抽样的样本量; 调查组织更复杂; 估计值和方差计算更复杂。
42
2)多相抽样
N i Si Ci ni n ( N S C ) i i i
Ci ——第i层每个样本单元调查费用的估计值
32
4)多次分层抽样
指对调查总体进行初次分层后,再对某些层进 行第二次甚至第三次分层,以便可以在每层内 按照简单随机抽样方法抽取样本。
33
分层随机抽样的优点缺点
6
程序2:制定抽样框架
对目标总体定义后,需要决定辨别和接触总体中个体 的手段或途径。抽样框架提供抽取样本的工具或名单, 提供了辨别和联系调查总体中个体的有效途径。
7
程序3:选择抽样方法
放回抽样(重复抽样)与非放回抽样(非重复抽样) 概率抽样与非概率抽样 抽样误差与抽样方法、样本量相对总体的大小等相关
17
8.3 抽样方法
抽样方法分类及特点
概率法则:任意为非立意 按是否严格遵循概率法则,分为概率抽样和非概率抽 样 概率抽样最大特点是:可确定样本估计值的精度,计 算置信区间,对总体进行合理推断; 非概率抽样的特点是:操作简便、时效快、成本低, 可以推断总体但无法确定精度。