现场调查中的抽样方法
样本进行方差估计时,可以将它看成是SRS
• 缺点:
– 当抽样单位的排列有周期趋势时,抽样结果可能有偏 差
精品课件
在农村某地区开展儿童维生素D缺乏调查
根据样本量估算,需要抽取该社区1/10的儿童采血检测; 每个家庭有门牌号,从1-2000号,单号一排,双号一排。调查 者首先用随机数字表从1-10中选一个数字,然后用系统随机方 法抽取该街道的1/10有儿童的家庭。
• 调查3-6月份的各级医院的处方用药情况, 如何抽样?
精品课件
处方:分层多阶段抽样
抽取市(县)、乡镇及村级医疗机构
➢ 市、县级医院:8所全部调查 ➢ 乡镇医院:171所中随机抽取30所 ➢ 村诊所:在抽中的30个乡镇医院所在乡镇中,分别随机
抽取1-2个村卫生室,共40所
抽取各医院2008年3-6月治疗发热儿童的用药处方
• 问:人群总吸烟率是多少?
– 直接算法:总吸烟率 = (55+50)/(100+1000) = 9.5%
– 正确算法:男4000抽100,每人代表40人(W=40)
女6000抽1000,每人代表6人(W=6)
= 25%
总吸烟率 = (55*40+50*6)/(100*40+1000*6)
精品课件
调查的分类
•这一抽样方法有什么潜在问题?
精品课件
分层抽样
按影响较大的某种特征将总体分成若干组(统计上 叫做”层”),再从每一层内随机抽取一定数量的
观 察单位
• 分层变量最好是层间差别大,层内差别小
• 层内样本量分配
– 按比例分配
– 等额分配 – 最优分配
层层1 1
总总体体 层层2 2
层层3 3
• 按照性别分层,男生和女生 • 每层中随机抽取100名学生
1487 要
304 1688……
94
710
76
注 意 : 8400 以 上 的 数 字 不
精品课件
2100个数
1, 2100
2,
3, 4,……
2101,2102,2103,2104,……4200
4201,4202,4203,4204,……6300
6301,6302,6303,6304,……8400
有目的地选定典型的人、单位进行调查,对事 物特征作深入了解。
没有随机原则,不能估计总体参数,只能对总体 特征作经验推论,不属于统计推断的范畴
精品课件
抽样调查
抽样调查:从总体中抽取一定数量的观察 单位组成样本,根据样本信息来了解总体 特征。
精品课件
基本概念
• 总体:根据研究目的确定的同质观察单位的全体 • 样本:从总体中随机抽取的部分观察单位的总和 • 抽样的目的:用样本信息推断总体特征 • 抽样误差: 由抽样造成的样本信息偏离总体参数 • 可计算总体参数的95%可信区间
精品课件
• 第1阶段:50个班级中随机抽取20个班级 • 第2阶段:每个抽中班级中随机抽取3个小组 • 第3阶段:每个小组中随机抽取4名学生
初级抽样单位:班级 二级抽样单位:班级里的小组 三级抽样单位:学生
精品课件
阜阳市各级医疗机构治疗发热 儿童用药现况调查
精品课件
• 2008年安徽省阜阳市发生EV71手足口病疫情
精品课件
– 第1阶段为初级抽样单位PSU(primary sampling unit) – 第2阶段为二级抽样单位SSU(second sampling unit) – 第3阶段为三级抽样单位TSU(tertiary sampling unit)
初级抽样单位多,调查结果抽样误差小,精度高 建议不少于10-15个
分层抽样 < 系统抽样 < 单纯随机抽样 < 整群抽样
精品课件
设计效力(Design Effect):样本量不变时, 实际抽样方法的方差与单纯随机抽样的方差 的比值
Ratio of actual variance to variance assuming SRS, given same n
DE一般为1.3-3
抽取的Cluster越少,抽样误差越大
• 数理统计推理和中心极限定理表明,从正态总体中随机抽取例数为n的样本, 样本均数服从正态分布
• 对样本均数这个正态变量采用u=(样本均数-总体均数)/σ变换,变换为标 准正态分布N(0.1),即u分布。
• 实际工作中σ往往是s来估计的,这时就是t变换了,其结果就是t分布
抽取1-2个村卫生室,共40所
抽取到医院的儿科医生全部调查
精品课件
某市医务人员甲型H1N1 流感疫苗接种意愿调查
精品课件
背景
• 2009年甲型H1N1流感大流行,防控工作再次成为 全球关注焦点
• 流感疫苗----有效防控流感的手段
精品课件
WHO和我国准备为医务人员优先接种甲型H1N1 疫苗
• 医务人员是特殊群体,非常重要:
三级
18 14400
二级
25 10000
一级
45
2700
合计
88 27100
如何抽样?
精品课件
采用分层二阶段抽样方法
• 第一阶段:先抽医院 • 第二阶段:再抽取医护人员
第一阶段抽取多少医院合适?
精品课件
• 抽取5家? • 抽取10家? • 抽取20家? • 抽取30家? • 抽取50家?
精品课件
精品课件
单纯随机抽样 Simple random sampling (SRS)
将总体的全部观察单位编号,再用随机数字等方法
随机抽取部分观察单位组成样本
例:某中学2100名学生,随机抽200人估计近视率
• 先将所有学生编号:1,2,3,4…,2100
• 查 随 机 数 字 表 6394 0710 6376 3587 0304 7988……
– 3月1日至5月9日共报告6049病例 – 99%的为14岁以下儿童 – 大多数病例以急性发热起病
• EV71重症危险因素研究发现
– 首诊在村级医疗机构 – 氨基比林和激素类药物
精品课件
调查目的
• 了解阜阳市各级医疗机构治疗发热儿童的用药现 状
• 发现存在的问题及影响因素 • 为规范发热儿童用药提供依据
精品课件
• 95%可信区间:以样本信息推论总体时,计算出的 可信区间有95%的概率覆盖总体参数。
高血压患病率为20%(15%-28%) 高血压患病率为1况调查:在沿海地区、山区、平 原地区各随机抽取1个村庄,每个村中再随机抽取100户家 庭,每个家庭的全部成员作为调查对象。
精品课件
分层抽样
• 优点:
– 减少抽样误差,分层后增加层内同质性 – 便于对不同的层采取不同的抽样方法,如城乡分层 – 还可对不同层独立进行分析(各层要满足样本量)
精品课件
整群抽样
先将总体分成若干个群,每个群包括若干观察单位, 再随机抽取k个群,每个群的全部观察单位组成样 本
Population of L strata, stratum l contains nl units
Population of C clusters
Take SRS in every stratum
Take SRS of clusters, sample 精品课件 every unit in chosen clusters
整群抽样
群间差异越小、抽取的“群”越多,精度越高,样 本量确定后,宜增加“群”数而减少群内的观察数 • 学校共有70个班(各个班级情况相似时比较好)
➢ 市、县级医院:每月随机抽取8张,共32张 ➢ 乡镇医院:每月随机抽取4张,共16张 ➢ 村卫生室:每月随机抽取2张,共8张
精品课件
医生:分层多阶段抽样
抽取市(县)、乡镇及村级医疗机构
市、县级医院:8所全部调查 乡镇医院:171所中随机抽取30所 村诊所:在抽中的30个乡镇医院所在乡镇中,分别随机
8401,8402,8403,8404,…9999…10500
1600个数
500个数
精品课件
单纯随机抽样
• 优点:均数(或率)及标准误的计算简单 • 缺点:总体例数多时,需有全部名单,编号
精品课件
系统抽样
将全部观察单位根据某一顺序编号,计算抽样间隔,随机 抽第k号(小于抽样间隔)观察单位,然后依次用相等间 隔抽取观察单位组成样本
精品课件
多阶段抽样
• 单阶段抽样:四种基本抽样方法都是通过一次抽样产生一个 完整的样本
• 多阶段抽样:总体大,情况复杂,分布广,可分若干阶段进 行抽样,每个阶段可用上述四种方法中任意一种进行抽样
• 例:在某省进行某项调查:
o 第一阶段:用系统抽样法随机抽取30个县 o 第二阶段:用SRS法每县抽取10个自然村 o 第三阶段:用SRS法每村抽取10名村民
• 普查(全面调查) • 典型调查(案例调查) • 抽样调查
精品课件
普查 Census
• 人群中每个人都调查 • 没有抽样误差 • 人群很小时可以使用 • 人群数很大时耗费人、财、物力,质量不易控制,
非抽样误差大 • 不适于患病率低和诊断技术比较复杂的疾病 • 无应答率常常较高
精品课件
典型调查(案例调查)
• 在某地区的医院进行医院感染情况的抽样调查,抽中40所 医院。实施过程中,有些医院不配合。可根据医院特征 (如同级、同类、病床数)替换愿意配合的医院。
精品课件
• 调查某地区腹泻患病率,采用多阶段抽样方法。第1阶段: 兼顾地理位置、经济水平、人口数量、工作基础和意愿, 选择A县、B县,C区和D县作为调查点;第2阶段……
两类抽样方法
• 非概率抽样:无法确定被调查对象的概率,无法 推断总体,常用于探索性研究
– 碰巧抽样或方便抽样:超市里走出的前10个人