04第四章_抽样
一、抽样的基本概念
1.元素:等同于分析单位
2.总体(population):元素的集合体 N
3.样本(sample)从总体中按一定的方式抽取
出的一部分元素的集合。
研究结论只能推及总体范围
不反映总体的样本——农民为何常在民 意调查中被忽略(中国青年报 2010-03-04 )
中国人如何看美国,如何看美国人和中美 关系?近期,《环球时报》在中国社会科 学院美国研究所和专业调查公司的帮助下, 就此进行了民意调查,并公布了调查结果。 尽管该媒体发布的报道声称,他们这次是 “做了一次严格意义上的民意调查”,但 这次调查是否真称得上“严格意义”,值 得商榷。
配额抽样的技术要求
配额抽样技术要求研究者必 须对总体的情况有所了解 (所有投票者)。对于全国 性大选的民意调查而言,这 类信息主要来自人口普查资 料。
人口构成改变
——然而,到1948年二战促成
了大量农村人口涌入城市,在 很大程度上改变了1940年人口 普查资料显示的人口特征,而 盖洛普的抽样依据的正是1940 年的人口普查资料。
线人(informants)
华中某市高校同性恋者的个案研究
访谈对象大致来自三个方面:(1)
来自由华中科技大学生命科学与 技术学院组织的“大学生同性恋 亚文化研究”课题组提供的个案 资料; (2)笔者在现实中认识的同性恋 朋友;
(3)由上述两组个案通过“滚雪
球”方式认识的新的个案,即他们
再介绍自己所认识的圈内的人。
3.抽样:从组成某个总体的所 有元素的集合中,按一定的方 式选择或抽取一部分元素的过 程。
4.抽样单位( sampling unit)
抽样单位就是一次直接的抽样
所使用的基本单位。抽样单位 与构成总体的元素有时是相同 的,有时又是不同的。 抽取1000个大学生。 直接抽取 先抽班级,在抽学生
社会调查步骤
选 抽 题 样 研究设计
第四章
抽
样
概念操作化 问卷设计 资料收集
资料分析 调查报告撰写
第四章
抽
样
本章主要内容
1.抽样的概念和类型 2.非概率抽样方法 4.概率抽样方法 5.户内抽样和PPS抽样 6.样本规模
案例1——2004年美国大选主要民调样本数
调查机构
福克斯新闻
盖洛普 全国广播公司/《华尔街日报》 哥伦比亚广播公司/纽约时报 美国广播公司/华盛顿邮报
城乡人口政治倾向
——此外,由于城市居民更支
持民主党,因此,在将乡村投 票者的人数估计得多于实际的 情形下,便相对低估了投票支 持民主党的人数。
4.雪球抽样(snowball sampling)
——雪球抽样,当我们无法了解总体 情况时,可以从总体中少数成员入手, 对他们进行调查,向他们询问还知道 哪些符合条件的人;再去找哪些人并 询问他们知道的情况。如果滚雪球一 样,我们可以得到越来越多具有相同 性质的群体成员。
(一)与抽样有关的概念(续3)
6.参数值 (parameter)也称 为总体值,它是关于总体中某 一变量的综合描述。 7.统计值(statistic)也称为 样本值,它是关于样本中某一 变量的综合描述。
二、抽样的作用
基本作用:是人们从部分认识
整体的关键环节 必要性:研究人员难以做到任 何研究都进行全面调查,而抽 样误差可以控制到很小,因而 抽样调查成为最常用的研究方 法之一。
《青年研究》
2011年第8期
(二) 概率抽样的方法
概率抽样的原理
保证总体中每一个个体都有
相等的机会入选样本。 当总体情况不明时,无法做 到随机抽样
1.简单随机抽样
(simple random sampling)
——(1) 简单随机抽样又称 纯随机抽样,它是按等概率原 则直接从含有N个元素的总体 中随机抽取n个元素。
案例《文学文摘》—预测结果
候选人
兰登 A· Landon 罗斯福 F· Roosevelt
党派
共和党 民主党
支持率
57% 43%
案例《文学文摘》抽样——选举结果 两个星期之后,美国总统选举 的结果罗斯福以61%的得票率 获得第二任任期。相较于罗斯 福的523张选举人票,兰登仅 得到8张。
案例《文学文摘》——失败原因
最后结果
日期
10/30-10/31 10/29-10/31
奥巴马 克里 纳德尔
46% 49% 48% 49% 1% 1%
差额
克里+2 持平
10/29-10/31
48%
47%
1%
布什+1
10/28-10/30
49%
46%
1%
布什+3
10/27-10/30 10/27-10/29
11 月 2 日
48% 50%
B.总体名单中,个体的排列
上有与抽样间隔相对应的周 期性分布情况。
3.分层抽样/类型抽样 (1)含义:先将总体中所有单位
按某种特征或标志划分为若干类
型或层次,然后再在各个类型或 层次中采用简单随机抽样或系统
抽样的方法抽取一个子样本,将
其合成样本。
图示:分层抽样
分类
随机 抽样
总体
子群
样本
(2)分层抽样的运用
√
√
√
√
√
(3)注意要点
系统抽样一个十分重要的 前提条件,是总体中个体的 排列,相对于研究变量来说, 应该是随机的,即不存在某 种研究变量相关的规则分布。
(3)注意要点之一
A.总体名单中,个体的排列
具有某种次序上的先后、等 级上的高低情况。 例 抽取若干家庭样本进行 消费状况调查。
(3)注意要点之二
实际上,他们调查的只是中国5大 城市的部分居民,却根本没有调查过 任何一位农民,而在当代中国,农村 人口在全国人口总数中所占比例远远 大于城市人口。所以,仅仅5个城市部 分居民在调查中表达出来的民意,并 不足以真正代表包括广大农村居民在 内的“中国人”。
值得注意的是,类似这种只调查部分城市居民、 调查结果却被说成是整个“中国人”的民意调查, 并不鲜见。例如,稍前,《解放日报》和复旦大 学、神州调查公司等合作,开展了“今天我们怎 样过春节”的全国30个城市抽样调查,也将农民 排除在外。 中国经济景气监测中心曾经发布的一项调查结果, 本来只是显示有58.2%的中国城市居民对目前的 收入水平感到满意,但某些媒体在报道时,则声 称是“逾半中国人满意当前收入”。超过8亿的中 国农民居然“人间蒸发”。
(一)与抽样有关的概念(续2)
5.抽样框(sample frame) 又称作抽样范围,它指的是 一次直接抽样时总体中所有 抽样单位的名单。
案例——抽样框
从一所中学中,直接抽取 200名学生作为样本。
抽样框
该中学的全体学生名单
案例——抽样框
如果抽取20个班级作为 调查样本。
抽样框
该中学的所有班级名单
《文学文摘》的民意测验失败是
因为它的样本严重地偏向高收入 群体。在当时条件下,收入较低 或失业者家里通常没有电话,也 没有汽车,因此,根据电话薄和 汽车俱乐部会员名单选定的样本, 主要涵盖的是经济地位较高的上 层选民。
案例《文学文摘》——失败原因
当时下层选民是罗斯福 社会及经济政策的主要受益 者和支持者,而共和党候选 人则更受上层选民的青睐。
样本量
1200
1573 1014 939 939
《新闻周刊》
882
2004年美国总统大选一周前民调结果
当选的相对机会值 福克斯新闻(1200 LV) 盖洛普(1573 LV) 全国广播公司/《华 尔街日报》 (1014 LV*) 哥伦比亚广播公司/ 纽约时报(939 LV) 美国广播公司/华盛 顿邮报(939 LV**) 《新闻周刊》(882 LV)
案例1——配额抽样
假设某高校有4000名学生,其中 男生占60%,女生占40%;文科学 生和理科学生各占50%;一年级学生 占40%、二年级、三年级、四年级学 生分别占30%、20%、10%。现在 用定额抽样方法依上述三个变数抽取 一个规模为100人的样本。
配额抽样结果
案例2 盖洛普1948年总体选举民调
(3)随机数表的使用
随机数表
2.系统抽样(systematic sampling)
(1)系统抽样的含义
系统抽样又称为等距抽样或机械 抽样。它是把总体中的单位进行编号 排序后,再计算出某种间隔,然后按 这一固定的间隔抽取个体的号码来组 成样本的方法。它和简单抽样一样, 需要有完整的抽样框。
(2)系统抽样具体步骤:
零点调查公司曾经对京沪穗蓉宁等 10个城市的4226名成年市民进行一项 调查,旨在了解这些城市居民未来5 年内最关心的事情,但媒体发布的调 查结果,却是“中国人关注的十大焦 点”。一项标榜为揭示“当代中国人 世界观”的调查,实际调查的不过是 京沪穗三市的部分居民。
(一)与抽样有关的概念(续1)
1.将总体的所有个体按顺序编号
2.计算抽样间距K
K= N(总体规模) n(样本规模)
3.在头K个个体中随机确定起点(A)
e.g.如果K=10,就从01-10号中抽签决定一个
号码作为起点,假定为05
4.从A开始,每隔K个个体抽取一个个 体,组成样本:
A,A+K,A+2K…..,A+(n-1)K
05,15,25,….,95
三、抽样的一般程序
界定总体
制定抽样框 决定抽样方案 实际抽取样本 评估样本质量
四、抽样的方法
偶遇抽样
非概率抽样
抽 样 方 法
概率抽样
判断抽样 配额抽样
雪球抽样 简单随机抽样 系统抽样 整群抽样 多阶段抽样