当前位置：文档之家› 第十章(非抽样误差)

第十章(非抽样误差)

西蒙斯随机化回答模型
沃纳模型中随机化回答的两个问题是同一敏感问题的两个方面，有些被调查者仍可能有疑虑不肯合作，而且从精度方面考虑，当P与0.5很接近时，方差大，而太远，增加了疑虑。所以西蒙斯（W.R.Simmons)进行了改进，将第二个问题改为与所要调查的敏感性问题完全无关的另一个非敏感性问题。西蒙斯随机化回答模型中两个问题一般表述为： I 你具有特征A吗？ II 你具有特征B吗？其中特征A为敏感性问题，特征B为无关问题。需要估计的是特征A的比例，特征B的比例为在设计时要求已知。两个问题在随机化过程中出现的比例仍假设为P: (1-P),其中P为已知。仍以调查考试作弊为例，两问题的设置
• 例：某电影公司调查学生每月看电影的次数，随机抽取了1000人， • 进行问卷调查，其中800人作了回答，回答的均值为2.5；若对无回答 • 的200人中，又随机抽取了50人进行面访，结果这50人的平均每月看 • 电影次数为1.2次，求偏倚的估计值。
此例指出了调整无回答误差的一个途径。即可通过多次访问。
2.
3.
根据非抽样误差的来源、性质和处理方法不同常分为以下三类：（1）抽样框误差（2）无回答误差（3）计量误差
抽样框误差
抽样框：一份包含全部抽样单元的清单或图示（抽样框是用来抽取抽样单元的依据。）目标总体：希望从中获取信息的总体调查总体（抽样总体）：实际调查所覆盖的总体。
理想状态下，两个总体应该完全一致。调查总体与目标总体一般不完全相同。因此就产生了抽样框误差。主要如下
若用Ny1估计总体总和，偏倚为 E ( Ny1 ) Y NR0 (Y1 Y0 ) 以上两种估计量的相对偏倚都是 R0 (Y1 Y0 ) / Y
根据以上分析，无回答的偏倚大小由两方面决定。一为回答率，二为回答层与无回答层均值的差异。无论何种情况，降低无回答率对于减少估计量的偏倚是重要的。
沃纳随机化回答模型
此模型由沃纳(S.L.Warner)提出，设计是向被调查者显示两个与敏感性问题（特征A）有关，但完全对立的问题。一个问题是“你具有特征A吗？”另一个问题是“你具有特征 ”表示不具有特征A。 A 这两个问题的答案只有肯定和否定的，“是”“否”。关键在于设计一种随机化装置，使被调查对象以概率P来回答第一个问题，和概率1-P 回答第二个问题。重要的是只有被调查对象本人知道自己回答哪个问题，而调查员是不知道它回答哪个问题。
• 例子：某大学要正确估计本校学生在考试中有没有舞弊行为的比例a，随 • 机抽取了n个学生进行调查，对每个学生显示两个问题 • I 你在考试中作过弊，对吗？ • II 你在考试不作弊，对吗？
实施：交给学生一个密闭容器，其中装有两种颜色的球，比如红与黑，但其他完全相同，红球与黑球的比例为P:（1-P），被调查学生从该容器中随机抽取一个球，不向任何人显示，只有他本人知道。如抽到红球如实回答I，抽中，黑球如实回答II.由于答案只有“是（对）”或“否（不对）”，因此别人又不知道你回答的是哪一个问题，因此会给出符合实际的答案。沃纳模型的特点是使每个人理解实验装置的被调查者能真实回答，另一方面能够通过调查得到所要估计的目标量a。结果： n个调查对象中m个回答“是” 计算：有两种情况回答“是” 1 抽到红球，调查对象曾作过弊 2 抽到黑球，调查对象没有作过弊抽到红球的概率为P，抽到黑球的概率为1-P，而无论抽到红球还是黑球作过弊的概率都是a（是我们所要估计的量）。因此：条件概率公式 Pr(是)=Pr（抽到红球）Pr（是|抽中红球）+Pr（抽中黑球）Pr（是|抽中黑球）
4.和随机化回答技术
敏感性问题（sensitive question)是指所调查内容涉及私人机密或不便于公开表态或陈述的问题。比如学生在考试的作弊现象，赌博，偷税漏税等等。对于敏感性问题若直接提问被调查者往往会拒绝回答，或不提供真实情况。因此这类调查，必须经过特别设计的调查方法，以消除调查者的疑虑，使他们如实回答。对于敏感性问题调查的特别设计技术就是随机化回答技术。基本特征为被调查对象对所调查的问题采取随机回答的方式，避免在没有任何保护的情况下直接回答敏感性问题，从而既对被调查者的隐私或秘密加以保护，而且能获得所需要的真实资料。
由于当偏倚愈大，差别就越大，因此 ˆ u MSE ( ˆ) 用区间 ˆ u Var ( ˆ) 1 Bias 2 ( ˆ) Var ( ˆ) 即作为的近似置信区间
由于实际问题中偏倚是得不到的，因此，上面的讨论只是理论说明。但当所要估计的目标量是总体比例P时，情况要简单些。
p1 (1 p1 ) R0 n1
• 例：某项民意测验，样本量为1000，回答率为90%，根据回答样本 • 的统计，反对人数比例为20%，求总体比例估计的95%的（保守的） • 置信区间。
降低无回答的措施和方法
1 改进调查的组织，加强对调查员的培训
调查员的选择上，选择高度责任心和较强人际交往能力的人。调查员的培训中，要使他们明白调查的内容和相关的解释，还有访谈技巧等等。
2.多次访问
当主要原因是被调查对象不在家，或有事不方便的时候，通常隔些时候再访会获得成功。多次访问（call backs)即通过对无回答产生的原因的分析，调整访问策略，对无回答的单元进行追踪调查从而提高回答率。国外应用多年。我国在一些项目上有所应用。例：在一次服装消费行为问卷中，样本量为1000户，第一次访问答卷为345份，对没有回答的样本单元再进行第二次访问得到163份答卷，更换调查员之后，对还没有回答的对象进行第三次访问，得到50份。对每一次访问，分别计算被调查人均月收入指标。结果如表
公式表示为： Pr(是)=Pa+(1-P)(1-a) 1 1 m ˆ 当p ，a (1 p ) 根据调查结果， Pr( 是 )1 的估计值是 m/n 2 2p n ，因此，a的估计值可通过
ˆ是a的极大似然估计，是无偏的。沃纳指出a m/n=Pa+(1-P)(1-a) a (1 a ) p (1 p ) 得到确定。 ˆ) Var (a n n(2 p 1) 2 可见方差包含两部分，一部分是每人都能真实回答的方差，还有一部分就是设计所产生的误差。 m m (1 ) ˆ (1 a ˆ) a p (1 p ) n n ˆ) 无偏估计为var (a (n 1)(2 p 1) 2 n n(2 p 1) 2
I 你在考试中作过弊，对吗？ II 你出生的月份是公历一月，对吗？
实施方法一样，交给学生一个密闭容器，其中装有两种颜色的球，比如红与黑，但其他完全相同，红球与黑球的比例为P:（1-P），被调查学生从该容器中随机抽取一个球，不向任何人显示，只有他本人知道。如抽到红球如实回答I，抽中，黑球如实回答II.由于答案只有“是（对）”或“否（不对）”，因此别人又不知道你回答的是哪一个问题，因此会给出符合实际的答案。
无回答（non-response)误差
所谓无回答是指由于种种原因没有能够对被抽中样本单元进行测量，从而没有获得有关这些单元的数据。无回答的类型：a. 遗漏 b.被调查对象不在家 c.不能回答 d. 坚决拒绝回答
政府行为的调查配合率高，对于一般市场信息调查的抽样相对无回答非常高。
无回答的表现为调查对象（入样单元）没有或拒绝接受调查（“单元无回答”）和接受调查但对某些调查项目没有或拒绝给予回答（“项目无回答”）
无回答的影响
将调查总体分为两个层 • 回答层单元倾向于回答 • 不回答层单元倾向于不回答
回答层的单元数为N1，无回答层的单元数为N 0，则总体单元数为N N1 N 0 . N N1 , 总体无回答率R0 0 . N N 回答层的均值Y1，无回答层的均值Y0；总体回答率R1 总体均值Y R1Y1 R0Y0；样本容量n, 其中回答的单元数n1 , 无回答的单元数n0； n n1 , 样本无回答率r0 0 , n n 回答单元的样本平均数y1，若不考虑无回答样本，样本回答率r1 直接用y1去估计Y ，会造成偏倚 E ( y1 ) Y Y1 Y Y1 ( R1Y1 R0Y0 ) R0 (Y1 Y0 )
结果表明：平均月收入随着逐次访问而不断上升，反映了高收入者不愿暴露自己的收入趋势，多次回访不仅降低了无回答率，而且对资料分析提供了无回答单元的一些信息。当然多次访问需要考虑经费的问题，当减少的偏倚大于增加的费用时，多次访问才合算。
3. 替换样本单元
对找不到的样本单元或拒绝回答的单元进行替换。需要谨慎，因为处理不当容易产生新的误差。更换的原则：替代者与被替代者有相同的或相似的特征，属于同一类。替换原则在调查前要确定，不能通过调查员主观意愿或方便而任意取。
若仅用回答比例为p1来估计总体比例P 偏倚为E ( p1 ) P R0 ( P 1P 0) 其中0 P0 1, P的置信度为1 的置信区间为（若只考虑方差） p1 u p1 (1 p1 ) ； n1
而实际上总体比例P R1 P 1 R0 P 0；因此在求解时常采用求P的置信下限时，令P0 0； ˆ 和置信上限P ˆ 在P的置信上限时，令P0 1，于是得到P的保守置信下限P L U ˆ 分别为PL R1 p1 u ˆ R p u P U 1 1 p1 (1 p1 ) n1
非抽样误差产生于抽样调查的各个环节，在调查和抽样设计中，调查实施与数据采集以及数据的汇总分析与处理中。主要原因如下： 1. 抽样设计过程中引起的误差 a.问卷调查中，问卷的设计，指标的概念和范围的明确 b.抽样框的问题调查实施过程中 a.样本的抽取（样本抽取不是按照设计要求抽取，主观抽取；虽按照设计要求抽取，但是样本不合适时舍弃不用或重抽，直至“满意”；因种种原因，调查对象找不到或拒绝回答而任意更换样本） b.调查员的工作失误 c.被调查者的拒绝接受调查和提供虚假的数据 d.计量工具或测试工具本身的误差数据汇总和处理中产生的误差

e商务文档

第十章(非抽样误差)

相关文档推荐：