当前位置:文档之家› 常用的抽样方法

常用的抽样方法


问题B:婚前没有性行为?回答: ①是 ②否
(7)如果调查对象抽取的球是黑色的,则回答问 题A;如果调查对象抽取的球是白色的,则 回答问题B。 (8)计算调查对象中婚前有性行为者的比例。
若调查200人,回答“是”的比例为λ =0.48,
二、估计比例用的3种改进模型
1、模型I 把问题 B改为一个完全无关、答案 为“是”的概率是已知值的问题 将沃纳模型中与敏感性问题相对的具有特 征A的问题改为一个与敏感性问题不相关的 A 其它问题。
是指涉及个人(或单位)的隐私或利益的 问题以及大多数人认为不便在公开场合表 态或陈述的问题,在某些情况下,还包括 一些违法犯罪的行为。

敏感问题的特点:

一般是社会舆论导向所不认同的或反 对的行为或观点 不同特征的人群有不同的敏感问题

不同敏感问题在敏感程度上存在差异 属性特征敏感问题
数量特征敏感问题

敏感问题的分类:


对于敏感性问题,若采用直接回答的形 式,被调查者难免产生抵触情绪,不愿据 实回答,这样导致调查数据失真、调查结 果无效。
因此寻求解决敏感性问题调查的有效方 法至关重要。
随机应答技术 Randomized Response Techniques (RRT)
随机化回答是指在调查中使用特定的随机化装置,使得被 调查者以预定的概率来回答敏感性问题。这一技术的宗旨就 是最大限度地为被调查者保守秘密,从而取得被调查者的信 任。 RRT技术的基本原理在于当被调查者确信调查者及其他 人无法从被调查者的回答中获知他们的真实行为时,能更加 真实地对敏感问题进行回答。并且RRT技术保护调查对象的 个人隐私,能充分得到调查对象的配合,最终可显著降低无 应答率和误答率,得到高质量的调查结果。
0.24 - (1 - 0.6) 0.3333 ˆ 0.178 0.6
ˆ 此时,的方差是 V( ) ˆ
(1 )
np 2 0.24(1 0.24) 0.0025 2 200 0.6
本例,V( ) ˆ
西蒙斯模型的不足之处
(1)π 是预先已知或待估计的值, π 的估 计偏差会增加估计方差。 (2)要提高估计精度,应增大P值和减小π 值。但随着P值的增大和π 的减小,被 调查者的疑虑会增加。
一、随机应答技术的步骤
1.向应答者提出一对问题 设计一对问题,使两个问题的答案种数和编码 完全一致,应答者随机选取一个问题,将答案编码 选出,在答案上做出相应的记号。由于答卷上没有 问题的编号,只有一套答案编码,人们无从知晓应 答者回答的是哪一个问题,因而起到保密作用。
(1)两个相关联问题模式: 设计两个相对立的陈述。 例如 问题1:你曾经吸过毒吗? 问题2:你从未吸过毒吗?
N i i 1 i
i
i 1 i
2、优缺点
(1)在一定程度上控制了抽样误差,尤其是最优分配法 (2)应尽量使层内差别小而层间差别大,以提高效率 (3)事先应了解各层的总体含量,最优分配还应了解标准差
多阶段随机抽样
样本含量的估计
单纯随机抽样
一、先决条件
1、容许误差,预计样本统计量与相应总体 参数的最大相差控制在什么范围。常取可信区间 长度一半。 2、所调查总体标准差,若不了解,须通过 预试验的标准差S或前人的资料作出估计; 3、第一类错误的概率 4、对有限总体抽样时,还须了解总体观察 单位数。
3.根据概率理论进行计算

(1) 问题1:你曾经吸过毒吗? ①是 ②否 问题2:你从未吸过毒吗? ①是 ②否

假设黑球所占的比例为P,白球所占的比例为 1-P,应答者中回答“是”的总比例为r,那么对 第一个问题回答“是”的比例RA可以由下式推算 : r=PRA+ (1-P)(1-RA) RA= r - (1-P)/(2P-1) (1>P>0.50)
常用的抽样方法
一、单纯随机抽样(simple random sampling)
1、抽样方法
根据研究目的选定总体,首先对总体中所有的 观察单位编号,遵循随机原则,采用不放回抽取方 法,从总体中随机抽取一定数量观察单位组成样本。
具体方法 ①随机数字法 ② 抽签法
2、优缺点
①对所有观察单位编号,当数量大时,有难度 ② 抽样误差的计算较方便
3、抽样误差的估计 有限总体与无限总体 总体类型 无限总体 均数标准误 率的标准误
p1 p n 1
s n
s n 1 N n
有限总体
p1 p n 1 n 1 N
二、系统抽样(systematic sampling)
又称等距/机械抽样 1、抽样方法
先将总体的观察单位按某顺序号等分成n个部分 再从第一部分随机抽第k号观察单位,依次用相等间 隔,机械地从每一部分各抽取一个观察单位组成样本。
估计有婚前性行为的比 例为49.7%
对本例, 0.36 (1 0.36)(1 0.2)2 0.05 (1 0.05)(1 0.8)2 1 V(ˆ ) 2 (0.8 0.2) 480 480 0.0012
两次试验模型的主要缺陷
(1)若对同一批被调查者试验两次,他们两次回答的结果必具 有相关性,从而破坏了模型的随机性。但如果对两批被调查 者分别进行试验,又不容易保证两次的结构具有相似性,从 而产生较大误差。 (2)方差V(π )是两次试验产生的方差之和,在相同条件下, 它比西蒙斯模型的方差要大得多。 (3) P1和P2不能太接近。当p1=p2时,模型就没有意义了。要 减小方差V(π) ,就应该增大P1而减小P2 ,但当p1增得过大时, 又会减少被调查者的配合。
0.55 0.3 0.5 0.5 即婆婆认为婆媳关系不 好的比例为50% ˆ
方差: ˆ V
1
n

p1 (1 p1 ) n( 2 p1 1) 2
敏感问题调查注意事项
调查者态度端庄、和蔼,通俗语言 向被调查者解释调查的目的与调查的意义,争取 得到其信任和支持 巧妙提问,避免转折太大
(4)调查对象在填写答案前,先随机抽取一个球 (球的颜色对调查员保密),据球的颜色决定回 答两个问题中的哪一个。 (5)由于调查员不知道某一对象抽取的球是什么颜 色的,所以无法知道某一对象回答的是问题A还 是问题B,也无法知道调查对象的“秘密”。 (6)设立两个问题: 问题A:婚前有过性行为?回答: ①是 ②否

(2)
问题1:你曾经吸过毒吗? ①是 ②否 问题2:你是工人吗? ①是 ②否

假设回答者中工人占的比例为RU,则r与RA 的关系为: r =PRA+(1-P) RU RA=r – (1-P) RU/ P
例14-1: 欲调查某地已婚育龄妇女有无婚前性行 为的比例。
(1)先把这项技术的意义、性质和方法,特别是 其保密功能,坦诚地告诉调查对象,以取得理解、 信任和合有一个口袋,里面装有黑白两种颜色的球 (也可用围棋的黑子和白子),两种球的比例不是1: 1,例如可以是60%和40%。
2、优缺点
(1)抽样方法简便 (2)易得到一个按比例分配的样本,抽样误差较小 (3)仍需对每个观察单位编号 (4)当观察单位按顺序有周期趋势或单调性趋势时, 产生明显偏性
3、抽样误差
无固定的计算公式,常按单纯随机抽样方法来计算, 与总体的性质和被抽样个体间的间隔有关。
三、整群抽样(cluster sampling) 1、抽样方法
①是 ②否 ①是 ②否
(2)两个不相关联问题模式: 第一陈述为敏感性问题,第二陈述是与第一陈 述无关的非敏感性问题,可以得到确切的答案。 例如 问题1:你曾经吸过毒吗? ①是 ②否 问题2:你是工人吗? ①是 ②否
2.设置一个随机装置进行调查
使用一个内装许多黑、白两色小球的 匣子,黑白球的比例接近1:1,但不等于 1:1,例如可以是60%和40%。 混合均匀后,被调查者从匣子中随机 摸取一球,摸取的是黑球还是白球只有被 调查者知道。若摸取的是黑球,则回答第 一个问题,否则,回答第二个问题。 答卷上只有答案选择,没有题号,可 按如下格式设计:“请将你的回答在相应 的编号处做上记号√:①是 ②否”。
3.模型III
本方法的优点是不需要设立非敏感问题。但 是球的颜色要有3种(红、黑、白)。每种球的比 例是已知的(P3=1-P1-P2),要求摸到红球者如实
回答问题,摸到黑球者全部回答“是”,摸到白
球者全部回答“否”。
例14-4 如调查一批与媳妇一起生活的婆婆, 问婆媳关系好不好。 红、黑、白球的比例是0.5、0.3和0.2。 最后问答“是”的比例为55%,要求估计婆婆 真正认为婆媳关系不好的比例。
2、模型II
将模型I中设立无关联问题B的方法改为两套抽取 球的装置
优点:对问题B回答“是”的概率不必是已知的。
要求调查对象抽取两次彩球和回答问题两次。
装置中黑球的比例是P1和P2,有专家建议,两者都 不要取0或0.5,习惯k常取P2=1—P1。 不论对于第一装置还是对于第二装量,摸到黑球者 如实回答问题A,摸到白球者如实回答问题B。
要求调查对象在两次回答问题中不能有矛盾。
例14-3 对于前面所说的调查婚前性行为的研究中,假 定共480名调查对象。 问题A:你在婚前有过性行为吗? 回答 ①是 ②否 。 问题B:你在这3天内是吃过鱼吗?回答 ①是 ②否 。
解此方程组,得 ˆ
1 1 - p 2 2 (1 p1 ) ( )
p1 p2
课本上有误
如果装置1中黑球的比例: 1 0.8, p 装置2中黑球的比例: 2 0.2 p 用装置1时调查对象回答“是” 的比例:1 0.36 用装置2时调查对象回答“是” 的比例: 2 0.05
ˆ
0.36 (1 - 0.2) - 0.05 (1 - 0.8) 0.497 0.8 - 0.2
相关主题