第十章(非抽样误差)
西蒙斯随机化回答模型
沃纳模型中随机化回答的两个问题是同一敏感问题的两个方面,有些被 调查者仍可能有疑虑不肯合作,而且从精度方面考虑,当P与0.5很接近 时,方差大,而太远,增加了疑虑。所以西蒙斯(W.R.Simmons)进行了 改进,将第二个问题改为与所要调查的敏感性问题完全无关的另一个 非敏感性问题。西蒙斯随机化回答模型中两个问题一般表述为: I 你具有特征A吗? II 你具有特征B吗? 其中特征A为敏感性问题,特征B为无关问题。需要估计的是特征A的比例, 特征B的比例为在设计时要求已知。两个问题在随机化过程中出现的比例 仍假设为P: (1-P),其中P为已知。 仍以调查考试作弊为例,两问题的设置
• 例:某电影公司调查学生每月看电影的次 数,随机抽取了1000人, • 进行问卷调查,其中800人作了回答,回答 的均值为2.5;若对无回答 • 的200人中,又随机抽取了50人进行面访, 结果这50人的平均每月看 • 电影次数为1.2次,求偏倚的估计值。
此例指出了调整无回答误差的一个途径。即可通过多次访问。
2.
3.
根据非抽样误差的来源、性质和处理方法不 同常分为以下三类: (1)抽样框误差 (2)无回答误差 (3)计量误差
抽样框误差
抽样框:一份包含全部抽样单元的清单或图示 ( 抽样框是用来抽取抽样单元的依据。) 目标总体:希望从中获取信息的总体 调查总体(抽样总体):实际调查所覆盖的总体。
理想状态下,两个总体应该完全一致。调查总体与目标总体 一般不完全相同。因此就产生了抽样框误差。主要如下
若用Ny1估计总体总和,偏倚为 E ( Ny1 ) Y NR0 (Y1 Y0 ) 以上两种估计量的相对偏倚都是 R0 (Y1 Y0 ) / Y
根据以上分析,无回答的偏倚大小由两方面决定。一为回答率,二为 回答层与无回答层均值的差异。无论何种情况,降低无回答率对于减 少估计量的偏倚是重要的。
沃纳随机化回答模型
此模型由沃纳(S.L.Warner)提出,设计是向被调查者显示两个与 敏感性问题(特征A)有关,但完全对立的问题。一个问题是“你具 有特征A吗?”另一个问题是“你具有特征 ”表示不具有特征A。 A 这两个问题的答案只有肯定和否定的,“是”“否”。关键在于设计一 种 随机化装置,使被调查对象以概率P来回答第一个问题,和概率1-P 回答第二个问题。重要的是只有被调查对象本人知道自己回答哪个 问题,而调查员是不知道它回答哪个问题。
• 例子:某大学要正确估计本校学生在考试 中有没有舞弊行为的比例a,随 • 机抽取了n个学生进行调查,对每个学生显 示两个问题 • I 你在考试中作过弊,对吗? • II 你在考试不作弊,对吗?
实施:交给学生一个密闭容器,其中装有两种颜色的球,比如红与黑,但其他完 全相同,红球与黑球的比例为P:(1-P),被调查学生从该容器中随机抽取一个球, 不向任何人显示,只有他本人知道。如抽到红球如实回答I,抽中,黑球如 实回答II.由于答案只有“是(对)”或“否(不对)”,因此别人又不知道你回答 的是哪一个问题,因此会给出符合实际的答案。沃纳模型的特点是使每个人理解实 验 装置的被调查者能真实回答,另一方面能够通过调查得到所要估计的目标量a。 结果: n个调查对象中m个回答“是” 计算: 有两种情况回答“是” 1 抽到红球,调查对象曾作过弊 2 抽到黑球,调查对象没有作过弊 抽到红球的概率为P,抽到黑球的概率为1-P,而无论抽到红球还是黑球 作过弊的概率都是a(是我们所要估计的量)。 因此:条件概率公式 Pr(是)=Pr(抽到红球)Pr(是|抽中红球)+Pr(抽中黑球)Pr(是|抽中黑球)
4.和随机化回答技术
敏感性问题(sensitive question)是指所调查内容涉及私人机密或不 便于公开表态或陈述的问题。比如学生在考试的作弊现象,赌博, 偷税漏税等等。 对于敏感性问题若直接提问被调查者往往会拒绝回答,或不提供真 实情况。因此这类调查,必须经过特别设计的调查方法,以消除调 查者的疑虑,使他们如实回答。 对于敏感性问题调查的特别设计技术就是随机化回答技术。基本特 征为被调查对象对所调查的问题采取随机回答的方式,避免在没有 任何保护的情况下直接回答敏感性问题,从而既对被调查者的隐私 或秘密加以保护,而且能获得所需要的真实资料。
由于当偏倚愈大,差别就越大,因此 ˆ u MSE ( ˆ) 用区间 ˆ u Var ( ˆ) 1 Bias 2 ( ˆ) Var ( ˆ) 即 作为的近似置信区间
由于实际问题中偏倚是得不到的,因此,上面的讨论只是理论说明。但 当所要估计的目标量是总体比例P时,情况要简单些。
p1 (1 p1 ) R0 n1
• 例:某项民意测验,样本量为1000,回答 率为90%,根据回答样本 • 的统计,反对人数比例为20%,求总体比 例估计的95%的(保守的) • 置信区间。
降低无回答的措施和方法
1 改进调查的组织,加强对调查员的培训
调查员的选择上,选择高度责任心和较强人际交往能力的人。调查员的 培训中,要使他们明白调查的内容和相关的解释,还有访谈技巧等等。
2.多次访问
当主要原因是被调查对象不在家,或有事不方便的时候,通常隔些时候再访 会获得 成功。多次访问(call backs)即通过对无回答产生的原因的分析,调整 访问策略,对无回答的单元进行追踪调查从而提高回答率。国外应用多年。我 国在一些项目上有所应用。 例:在一次服装消费行为问卷中,样本量为1000户,第一次访问答卷为345份, 对没有回答的样本单元再进行第二次访问得到163份答卷,更换调查员之后, 对还没有回答的对象进行第三次访问,得到50份。对每一次访问,分别计算 被调查人均月收入指标。结果如表
公式表示为: Pr(是)=Pa+(1-P)(1-a) 1 1 m ˆ 当p ,a (1 p ) 根据调查结果, Pr( 是 )1 的估计值是 m/n 2 2p n ,因此,a的估计值可通过
ˆ是a的极大似然估计,是无偏的。 沃纳指出a m/n=Pa+(1-P)(1-a) a (1 a ) p (1 p ) 得到确定。 ˆ) Var (a n n(2 p 1) 2 可见方差包含两部分,一部分是每人都能真实回答的方差, 还有一部分就是设计所产生的误差。 m m (1 ) ˆ (1 a ˆ) a p (1 p ) n n ˆ) 无偏估计为var (a (n 1)(2 p 1) 2 n n(2 p 1) 2
I 你在考试中作过弊,对吗? II 你出生的月份是公历一月,对吗?
实施方法一样,交给学生一个密闭容器,其中装有两种颜色的球,比如红与黑, 但其他完全相同,红球与黑球的比例为P:(1-P),被调查学生从该容器中随机 抽取一个球,不向任何人显示,只有他本人知道。如抽到红球如实回答I,抽中, 黑球如实回答II.由于答案只有“是(对)”或“否(不对)”,因此别人又不知道你 回答的是哪一个问题,因此会给出符合实际的答案。
无回答(non-response)误差
所谓无回答是指由于种种原因没有能够对被抽中样本单元 进行测量,从而没有获得有关这些单元的数据。 无回答的类型:a. 遗漏 b.被调查对象不在家 c.不能回答 d. 坚决拒绝回答
政府行为的调查配合率高,对于一般市场信息调查的抽样相对无回 答非常高。
无回答的表现为调查对象(入样单元)没有或拒绝接受调 查(“单元无回答”)和接受调查但对某些调查项目没有 或拒绝给予回答(“项目无回答”)
无回答的影响
将调查总体分为两个层 • 回答层 单元倾向于回答 • 不回答层 单元倾向于不回答
回答层的单元数为N1,无回答层的单元数为N 0,则总体单元数为N N1 N 0 . N N1 , 总体无回答率R0 0 . N N 回答层的均值Y1,无回答层的均值Y0; 总体回答率R1 总体均值Y R1Y1 R0Y0; 样本容量n, 其中回答的单元数n1 , 无回答的单元数n0; n n1 , 样本无回答率r0 0 , n n 回答单元的样本平均数y1,若不考虑无回答样本, 样本回答率r1 直接用y1去估计Y ,会造成偏倚 E ( y1 ) Y Y1 Y Y1 ( R1Y1 R0Y0 ) R0 (Y1 Y0 )
结果表明:平均月收入随着逐次访问而不断上升,反映了高收入者不愿暴露自 己的收入趋势,多次回访不仅降低了无回答率,而且对资料分析提供了无回答 单元的一些信息。 当然多次访问需要考虑经费的问题,当减少的偏倚大于增加的费用时,多次访问 才合算。
3. 替换样本单元
对找不到的样本单元或拒绝回答的单元进行替换。需要谨慎,因为处理不当 容易产生新的误差。 更换的原则:替代者与被替代者有相同的或相似的特征,属于同一类。替换 原则在调查前要确定,不能通过调查员主观意愿或方便而任意取。
若仅用回答比例为p1来估计总体比例P 偏倚为E ( p1 ) P R0 ( P 1P 0) 其中0 P0 1, P的置信度为1 的置信区间为(若只考虑方差) p1 u p1 (1 p1 ) ; n1
而实际上总体比例P R1 P 1 R0 P 0; 因此在求解时常采用求P的置信下限时,令P0 0; ˆ 和置信上限P ˆ 在P的置信上限时,令P0 1,于是得到P的保守置信下限P L U ˆ 分别为PL R1 p1 u ˆ R p u P U 1 1 p1 (1 p1 ) n1
非抽样误差产生于抽样调查的各个环节,在调查和抽样设 计中,调查实施与数据采集以及数据的汇总分析与处理中。主 要原因如下: 1. 抽样设计过程中引起的误差 a.问卷调查中,问卷的设计,指标的概念和范围的明确 b.抽样框的问题 调查实施过程中 a.样本的抽取(样本抽取不是按照设计要求抽取,主观抽取; 虽按照设计要求抽取,但是样本不合适时舍弃不用或重抽,直 至“满意”;因种种原因,调查对象找不到或拒绝回答而任意 更换样本) b.调查员的工作失误 c.被调查者的拒绝接受调查和提供虚假的数据 d.计量工具或测试工具本身的误差 数据汇总和处理中产生的误差