非抽样误差
第三节 无回答误差
一、定义:
无回答是指由于种种原因没有能 够对被抽出的样本单元进行计量, 没有获得有关这些单元的数据。
二、表现:
1.单元无回答和项目无回答 单元无回答: 项目无回答: 2.有意无回答和无意无回答
三、无回答的影响
1.无意无回答的影响: 2.有意无回答的影响: 主要影响有效样本量,会造成估计量方 差的增大,造成估计的偏倚。
例11-1 解:按题意,c=1.0,c1=1.2, c0=13.5,R0=0.4。则:
γ0 =
c + c1 R1 1 + 1.2 × 0.6 = = 0.4608 c0 (1 − R0 ) 13.5 × (1 − 0.4)
S2 n = 1000的简单随机样本,fpc ≈ 0, = n = 1000 V S2 1 则:n = 1 + ( − 1) R0 γ0 V 1 = 10001 + − 1 × 0.4 = 1468 0.4608 ′ ∴ n0 = 587, n1 = 881,n0 = 271 CT = 1.0 × 1468 + 1.2 × 881 + 13.5 × 271 = 6183.70 (元)
第四篇 抽样的其他技术和问题
第四篇 抽样的其他技术和问题
十、二重抽样 教学目的与要求:使学生理解二重抽样的基 教学目的与要求 本理论 教学难点与重点:估计量及估计量方差的一 教学难点与重点 般公式
第四篇 抽样的其他技术和问题
十一、非抽样误差 教学目的与要求:了解各类非抽样误差及其 教学目的与要求 一般的处理方法。 教学难点与重点:无回答误差 教学难点与重点
1 抽样框误差 2 无回答误差 3 计量误差
第二节 抽样框误差
一、抽样框误差的产生
抽样框是有关总体全部单元的名录、地 图等的框架。 一般,抽样总体和目标总体一致。 如果不一致,就会产生抽样框误差。
二、抽样框误差的种类
1.丢失目标总体单元。 2.包含非目标总体单元。 3.两总体单元不完全一一对应,即复合 连接 4.辅助信息不完全或不正确。
(二)加权调整法
一般是:回答率低的赋予大的权数,回答率 高的赋予较小的权数 如每个样本单元回答率Pi,那么对回答数据 进行加权调整时,以1/Pi为权数进行调整, 不过,一般Pi是未知的。
波利茨、西蒙斯的调整方法
ti是其他5晚在家的可接受调查的天数。
ˆ = p = 1 (t + 1), t = 0.1.2.3.4.5 Pi i 6 按t分为6组,t组均值y t , 频数nt 总体均值的估计为: y ps =
S 给定V , 则:n = V
1 1 + ( − 1) R0 γ0
例11-1
欲进行一次民意测验,N很大,按精度要求需要抽 取n=1000人(简单随机抽样)。现拟先采用邮寄 问卷调查,预期无回答率为40%,然后对所有无 回答的再抽一个简单随机子样本进行派员访问。设 邮寄一份问卷的费用是1.0元,对回答的每份问卷 数据处理费用是1.2元,派员调查与数据处理费用 合计每份13.5元。假定无回答层方差与总体方差 相等,试求为满足精度要求应邮寄多少份问卷?对 无回答者进行派员调查的比例是多少?预期费用多 少?
1 非抽样误差是指除抽样误差外,由于 其他各种原因而引起的误差。 非抽样误差存在于各种抽样和调查中, 而且不能通过增大样本量而得到控制。
二、从抽样调查的环节来看,可分为:
1 调查设计过程中引起的误差 2 调查实施过程中产生的误差 3 数据汇总和处理过程中引起的误差
三、按非抽样误差的来源、性质和处理方 法不同常可分为三类:
S 02是无回答层的方差,R0是总体无回答率 2 1 1 2 R0 1 − 1 S 0 V ( y ) = ( − )S + n N n γ h
3 无回答层抽样比及样本量的确定
CT = cn + c1 n1 + c0 n′ = cn + c1 R1 n + c0γ 0 R0 n 使CT V ′最小的最优γ 0 S 02 (c + c1 R1 ) c 0 ( S 2 − R0 S 02 )
γ0 =
N [ S 2 + (1 / γ 0 − 1) R0 S 02 给定V , 则:n = NV + S 2 CT 给定CT ,则:n = c + c1 R1 + c0γ 0 R0
当S 02 ≈ S 2 且N较大时,γ 0 和n的简化式为
γ0 =
c + c1 R1 c 0 (1 − R0 )
2
(一)二重抽样法
1 定义 先对总体采用费用较低但无回答较高的 方法调查,得到回答层的观测值。然后 对无回答层中随机抽选一个子样本用一 种回答率较高的方法进行调查,得无回 答层的观测值。从而得到总体参数的估 计值。称为二重抽样法。
2 估计量及估计量方差
原样本样本量n, n1个单元回答,样本均值为y n1 ; ′ 无回答的单元为n0,在其中用简单随机再抽取n0 ′ 个单元,抽样比γ 0 = n0 / n0 事先确定,再次访问 得样本均值为y n0 , Y 的一个无偏估计为: ′1 + n0 y n0′ ] n
其他参考书目: 《调查中的非抽样误差》 Judith T.Lessler 等著 中国统计出版社
第十一章 非抽样误差
第一节 非抽样误差主要来源及分类
调查误差
抽样误差 调查误差 非抽样误差 系统误差 随机误差
影响抽样误差的大小的因素
估计方法 样本量
抽样误差
抽样设计 总体变异程度 总体大小
一 、非抽样误差主要来源
本章小结
1 非抽样误差的主要来源、分类 2 抽样框误差的种类 3 无回答误差、降低措施及调整
∑y n
t =0 5 t
5
t
/ pt
∑n
t =0
=
∑y n
t =0 5 t
5
t
/(t + 1)
t
/ pt
∑n
t =0
t
/(t + 1)
(三)估算法
估算法是指当无回答出现时,用适当的 方式对每个缺失的无回答数据进行估计 或直接用别的现有数据替代。
常用于项目无回答。 可用现有回答数据的整体或分类平均数 /众数/回归估计估算缺失项目,或者, 用与无回答单元其他特征基本类似的单 元的数据直接替代。
四、降低无回答的措施与方法
1.改进调查的组织,加强对调查员的培训 2.多次访问 3.替换样本单元 4.对敏感性问题(所调查的内容涉及私人机密而 不愿或不便于公开表态或陈述的问题)。可采用一 定技术:一般用随机化回答技术,即被调查 者对所调查问题采取随机回答的方式。
五、对无回答的调整
(一)二重抽样法 (二)加权调整法 (三)估算法