当前位置：文档之家› 抽样调查-第11章调查中的非抽样误差

抽样调查-第11章调查中的非抽样误差

（1）抽样框误差，即由不完善的抽样框引起的
误差；（2）无回答误差，即由于种种原因没有从被调查单元获得调查结果，造成调查数据的缺失；（3）计量误差，即所获得的调查数据与其真值之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个：目标总体—调查研究对象的全体。抽样总体—从中抽取样本的总体。（即抽样框）理想抽样框的标志是目标总体和抽样总体完全重合。否则抽样框就是不完善的。
（第十一章结束）
•
生活中的辛苦阻挠不了我对生活的热爱。20. 11.1720 .11.17 Tuesday , November 17, 2020
•
人生得意须尽欢，莫使金樽空对月。0 2:06:06 02:06:0 602:06 11/17/2 020 2:06:06 AM
•
做一枚螺丝钉，那里需要那里上。20. 11.1702 :06:060 2:06No v-2017 -Nov-2 0
Y
N n
is
yi
式中，i表示样本中第i个单元，s为所有样本的集合.
若样本数据中第k个最大值kth被认为是离
群值，单侧k次缩尾估计量就可以通过第n-k
个最大值yn-k代替这些离群值，即
N nk
YW
n
( yi kynk )
i 1
●调整权重
处理离群值的另一种方法是降低离群值
的权重，从而使它们的影响变小。例如，赋
另外，离群值也可以通过下面的置信区间进行确认：
(m tl s, m tu s)
式中 tl 和 tu分别为根据预先确定的置信度得到
的标准正态分布的上限和下限值。落在这个区间之外的观测值被认为是离群值。
三、离群值的处理
如果在调查进行中发现离群值，就要及时处Biblioteka ，例如进行回访核实，对错误进行更正。
R0
相对偏倚
( y1 )
R0 (Y 1 Y Y
0)
由上式可以看出：无回答偏倚主要来自两
个方面：一个是回答层与无回答层之间的数量
差异 (Y 1 Y 0 ) ；一个是无回答率 R0 。
三、降低无回答的措施
主要措施是预防，预防措施有： ●问卷设计得具有吸引力； ●注意适当的长度； ●充分利用调查组织单位的权威性和影响力； ●注意调查员的挑选； ●做好调查员的培训； ●注意调查过程的监控； ●奖励措施； ●再次调查。
●利用核查，掌握误差情况，对不完善抽样框进行调整；
●事先制定一些规则，对发现的抽样框问题进行现场处理；
●使用多个抽样框进行抽样。
§11.3 无回答误差
一、概念
无回答误差是指在调查中由于各种原因，调查人员没能够从入选样本的单元处获得所需要的信息，由于数据缺失造成估计量的偏差。
无回答误差是一种重要的非抽样误差，这种现象十分普遍，对估计量的危害也比较大，所以国际上对这方面的讨论一直比较热烈，目前这种讨论还在继续。
从无回答的内容来看可分为：
单元无回答（被调查单元没有参入或拒绝受调查，他们交的是一份白卷）项目无回答
（被调查单元虽然接受了调查，但对其中的一些项目没有回答）
从无回答的性质来看可分为：
有意无回答（有意无回答常常与调查内容有关，如对调查内容反感，或涉及个人隐私不愿意回答）
无意无回答（无意无回答常常与调查内容无关，之所以无回答是因为被调查者生病或很忙，无法接受调查）
,W0
N0 N
Y的相对偏倚可以写为
Y0
W0 r
Y
rW0 (1 W0 )
r
由上式可知，总体总和的相对偏倚取决于
r 和 W0
■ 总体均值的估计
在抽样框存在丢失单元情况下，均值估计量为：
r
Y
Y
1 n
n i 1
yi
此时估计量的偏倚为：E(Y ) Y W0 (Y 1 Y 0 )
Y 的相对偏倚可以写为：
W0 (Y1 Y0 ) W0 (1 r)
Y
rW0 (1 W0 )
由上式可以看出，如果丢失单元的均值与
抽样单元的均值相同，即
r
1
，则估计量
Y
是目标变量 Y 的无偏估计。
r 反之，如果 r 1 ，偏倚状况则随着
的变化而变化。
Y
三、不完善抽样框的使用
抽样框不完善并不是不能使用，因为构造一个完善的抽样框有时是非常困难的。使用不完善抽样框时若能采用一些补救措施，有助于减小抽样框误差。主要采用以下三项补救措施：
二、离群值的确认
通常离群值的检测是通过测量它们与数据
中心的相对距离来辨认的。
例如，若 y1, y2 ,, yn是要观测的样本数
据，m 和 s 分别是侧度数据集中趋势和离散
趋势的指标，那么， yi 离数据中心的相对距
离可以定义为
di
|
yi
m| s
tl
tu
如果 di越过了预先确定的偏离值，那么该
观测值就被认为是离群的。
N1
N1
N0
Y Yi Yi Y1 Y0
i 1
i 1
现从抽样框中的N1个单元中采用简单随机抽样抽出容量为n的一个样本，由于n取自于N1 对总体总量的估计为：
Y
N1 n
n i 1
yi
显然此时的估计是有偏的，偏倚为：
E(Y ) Y Y1 Y Y0
这表明估计量低估了总体总量，令
r
Y0 Y1
1、查找阶段调查人员无法找到被调查者，主要原因有地址不详、被调查者搬迁、调查人员不熟悉地址； 2、接触阶段被调查生病、对调查不感兴趣或别的原因拒访； 3、采访阶段调查开始后被调查者对某些问题不愿提供答案、调查员由于粗心遗漏某些项目等
无回答的影响：
回答层（N1）总体（N）
无回答层（N0）
第十一章调查中的非抽样误差
§11.1 引言
非抽样误差是指除抽样误差以外的,由于各种原因引起的误差。
在概率抽样、非概率抽样、其他全面调查和非全面调查已及普查中，非抽样误差都有可能存在。
同抽样误差相比，非抽样误差有如下特点：
1、非抽样误差不是由于抽样的随机性带来的，所以在抽样调查中，它不可能随着样本量的增大而减小；
●抽样框存在的问题，有些是不容易解决的。因此抽样框的维护、抽样框使用情况的不断总结与研讨，对于经常性的调查项目来说是十分必要的。
●抽样框的不完善并不是不能使用。可以进行修补、调整。
N1
（3）抽样框误差的影响
设目标总体单元：N
抽样框中单元：N1 抽样框中丢失的单元：N0
N=N1+N0 ■ 总体总量的估计总体总量的真值是：
● 设计误差（设计方面原因造成计量误差） ●被调查者误差（被调查者提供的数据失真） ● 调查者误差（现场调查人员造成的误差） ● 其他误差（由于测量工具、编码、录入）
减少计量误差的措施
减少计量误差需要对调查全过程进行质量监控：（1）调查设计方面调查问卷设计出来后，应组织有关人员对问卷进行讨论。如果是大型调查活动，还要在正式调查之前进行预调查，在实践中对问卷进行检验。（2）现场准备方面在收集数据之前，需要做好准备工作：招聘调查员；培训访问员；编写调查手册。
•
科学，你是国力的灵魂；同时又是社会发展的标志。上午2 时6分6 秒上午 2时6分 02:06:0 620.11. 17
•
精益求精，追求卓越，因为相信而伟大。202 0年11 月17日星期二上午2时 6分6秒 02:06:0 620.11. 17
•
让自己更加强大，更加专业，这才能让自己更好。2 020年1 1月上午2时6 分20.11. 1702:0 6November 17, 2020
•
这些年的努力就为了得到相应的回报。2020 年11月1 7日星期二2时 6分6秒 02:06:0 617 November 2020
有意无回答对数据质量的影响很大，回答者和不回答者之间往往存在系统性差异。这种不回答不仅减少了有效样本量，造成估计量方差增大，而且会带来估计偏倚。
无意无回答可以看成是随机的，这种不回答虽然会造成估计量方差增大，但通常认为不会带来估计偏倚。
二、无回答产生的原因及影响
如果把采集数据的过程划分为查找、接触和采访三个阶段，三个阶段都有可能出现无回答。
四、对存在无回答数据的调整
调查中无回答的情况总是难以避免，由于无回答造成数据不全，如果不加处理，就有可能造成估计量偏倚。下面介绍几种数据调整的方法：
1、再抽样调整在第一次无回答的单元中随机抽取一个子样本，通过更细致、更充分的工作，获得该子样本的数据，作为整个无回答层的代表值。
2、加权调整对存在无回答数据进行补救的另一种方法
予离群值的权重为1，即离群值仅仅代表它自己而不代表其他总体单元。
●选取稳健估计量
在经典的估计理论中，通常假定估计量服从正态分布，样本均值和样本方差估计量在正态分布的假设下也是最理想的。但是，这些估计量对离群值非常敏感。
稳健估计量则能克服这种局限性，例如中位数比均值更稳定，四分位数比通常的方差估计量更稳定。
•
日复一日的努力只为成就美好的明天。02:06:0602:0 6:0602:06Tues day , November 17, 2020
•
安全放在第一位，防微杜渐。20.11.17 20.11.1 702:06:0602:0 6:06No vember 17, 2020
•
加强自身建设，增强个人的休养。202 0年11 月17日上午2时 6分20. 11.1720 .11.17
数据收集完毕后的审核
（审核的重点是数据的一致性审核和离群值的检测）

e商务文档

抽样调查-第11章调查中的非抽样误差

相关文档推荐：