抽样调查意义及方法
六、样本容量和样本个数
样本容量:是指一个样本所包含的单位数。 用n表示。 n ≥ 30 大样本 n < 30 小样本 样本个数:是指一个总体可能抽取的样本个 数,根据抽样方法的不同,同样的总体所可 能抽取的样本个数是不同的。
案例1:民意调查
• 最为出名:盖洛普民意调查
• 以其准确性和权威性在世界各地享有极高的声誉 • 盖洛普民调:奥巴马50%对42%的支持率领先麦 凯恩 • CNN民调:奥巴马50%对43%的支持率领先麦凯 恩
三、抽样平均误差
计算抽样平均误差的意义 :由于抽样是随
机的,因此样本也是随机的,因此样本指标 的计算结果也是随机的,唯一确定的是母体 参数值,而母体参数值我们往往是不知道的 。因此只能用样本指标来估计,但没有任何 一个样本的指标代表的是总体的真实参数, 所以只能把所有的样本的指标平均来近似反 映,这就产生了抽样平均误差的概念。
分层抽样
个体 群间差异小
三、随机抽样的具体方法
(五)多段随机抽样 又称多级随机抽样或分段随机抽样,就是把从总体中抽取样本的过 程分成两个或两个以上阶段进行的抽样方法。 方法
第一步:先将总体各单位按一定标志分成若干群体,作为抽样的第1 级单位。然后将第1级单位又分成若干小群体,作为抽样的第2级单 位。以此类推,还可以分为第3级、第4级单位。
三、总体指标和样本指标(参数和统计量)
总体指标:全及总体的那些指标,也称总体 参数或母体参数,其值唯一。总体指标有:
X 总体平均数: X
N
N1 总体成数:P P N 总体方差:
2
( xi X ) 2 N
(x X ) F
i
2
F
样本指标:抽样总体的那些指标, 也称样本统计 量,为随机变量。样本指标有:
三、抽样平均误差
抽样平均误差的定义 :是反映各样本的抽
样误差一般水平的指标,实质上是抽样指标 (平均数或成数)的标准差。 抽样平均误差计算的理论公式(M是样本个 数):一般使用计算软件计算
X P
( x X ) 2 M ( p P )2 M
注:
1、抽样误差实质上就是抽样指标的标 准差。 2、一般情况下,除非特别指明,抽样 误差就是指的抽样平均误差。 3、上面这些公式只是定义的理论公式 ,我们实际计算中一般不用这些公式。
二、全及总体和抽样总体(总体和样本)
全及总体Total Population:就是统计总 体,是为了与样本相区别而提出的,全及 总体的容量(单位数)用N表示。全及总 体也称为母体。
抽样总体(简称样本,Sampling Population): 又称样本总体,是抽取出来的子样组成的总 体,抽样总体的单位数用n表示。
三、随机抽样的具体方法
(三)类型随Leabharlann 抽样需要分层的情况Ø总体的不同部分(层)之间有明显差异时
Ø调查结果中要求有各个子总体的各自结果时
Ø总体中大部分的差异不大,但极个别的局部与其 它部分差异很大时,将这个别的局部单独作为一个 层
三、随机抽样的具体方法
类型随机抽样的评价:
优点:比简单随机抽样更精确
适用于总体单位数量较多,单位之间差异较大的调查对象
抽样调查
知识点回顾
普 查
全面调查 统 计 调查 非全面 调 查
全面报表 抽样调查
重点调查
典型调查
最常用的是:抽样调查
• • • • 民意调查:美国总统选举 市场调查:企业新开发产品市场调查 收视率调查:港台节目收视xx点 农产量、贸易、住户调查、劳动力、工业 企业抽样调查 • ……
• 在这一章,我们将学习:
第二步:依随机原则,先在第1级单位中抽出若干群体作为第1级样 本,然后再在第1级样本中抽出第2级样本,以此类推,还可以抽出 第3级样本、第4级样本。 第三步:对最后抽出的样本单位逐个进行调查。 例:见书
三、随机抽样的具体方法
(五)多段随机抽样
例:假定某县有20个乡镇,平均每个乡镇有10个行 政村,每个行政村有10个自然村,每个自然村有50
三、随机抽样的具体方法
(三)类型随机抽样 :
又称分层随机抽样。具体做法是按照总体已有的基本 特征,将总体分成几个不同的部分(每一部分叫一 层),然后,根据各类型(或层次)所包含的抽样单 位数与总体单位数的比例,确定从各类型中抽取样本 单位的数量;最后,再分别在每一部分中随机抽样
例:要了解某市800个私营企业的生产经营情况,决 定分类抽取100个作为样本进行调查。首先分类,第 一产业80个,占10%;第二产业320个,占40%;第 三产业400个,占50%。
收视率在中国
• 央视-索福瑞公司 • AGB尼尔森公司
尼尔森公司2008春晚收视率调查
• 总体:4.24亿收视人群 • 样本:全国14省市14,000户家庭 (装有个人收视记录仪) • 标志:某一时段是否在看春晚节目 • 指标:全国家庭收视率71.8% • 央视-索福瑞调查结果春晚收视率为96.5%
图2
随机起始的等距抽样
三、随机抽样的具体方法
(二)等距随机抽样
优点:样本在总体中的分布比较均匀,具有较高的代表性, 抽样误差小于简单随机抽样,而且比较简单易行,只要确 定了第一个样本单位,整个样本也就确定了。更适合大样 本的使用;样本分布比较分散
缺点:调查总体的单位不能太多,而且要有完整的登记注 册,否则难以进行。 但是,如果总体具有某一种周期性变化,则等距抽样的代 表性远不如简单随机抽样。另外,等距抽样同简单抽样一 样也容易忽略已有信息
样本结构不足以代表总体各单位的结 构产生误差的案例:
例1 对1000名大学生的年龄分别进行抽样调 查,随机抽取50名学生作为样本,可抽取无 数个样本,我们以样本一和样本二作为代表 来进行分析:
年龄 17 18 19 20 合计 总体(N) 200 400 300 100 1000 样本一(n) 10 20 15 5 50 样本二(n) 8 25 13 4 50
出口民调
• 出口民调,是私营调查机构在投票站出口 处对刚刚走出投票站的选民进行的一项调 查,通过直接询问选民投给谁来预估选举 结果。
案例2:电视收视率调查
• 收视率是指:收视人数除以整个市场电视人口数 的百分比(如:收视率2%,意味着100个人中有 2个人收看)
• 收视率影响广告商愿意花多少钱来买某节目 的广告,以及该节目播不播下去。
便于管理与实施控制
缺点:必须对总体各单位的情况有较多的了解,否则无法 科学分类,抽样难度加大,选择正确的分层标准很重要
三、随机抽样的具体方法
(四)整群随机抽样 又叫聚类随机抽样或集体随机抽样,先将总体各单 位按一定标准分成许多群体,并将每一个群体看作 一个抽样单位;然后,按照随机原则从这些群体中 抽出若干群体作为样本;最后对样本群体中的每个 单位逐个进行调查。 例:某中学有1200个学生,分为6个年级24个班。 采取整群随机抽样方法调查该校学生健康状况。随 机抽六个班调查。
二、影响抽样误差的因素
1. 母体(总体)各标志值的变异程度 ——两 者成正比,如果母体(总体)标准值没有差 异,则也就没有抽样误差; 2. 样本容量n ——反比关系:样本越大,误 差越小 3. 不同的抽样方法——重复抽样>不重复抽样; 4. 不同的抽样组织形式——是等距抽样还是 整群抽样,还是分层抽样或其它形式都会有 影响。
• 央视-索福瑞:68.8% 家庭 • AGB尼尔森: 86.8% 家庭
第二节 抽样误差 一、抽样误差 抽样误差即指随机误差,是抽样中由 于随机的原因,使样本各单位结构不 足以代表总体各单位的结构,而引起 抽样指标和全及指标之间的绝对离差。 这种误差是抽样调查固有的误差,是 无法避免的。但是可以控制的。
– 什么是抽样调查? – 如何用抽样调查的样本数据推断总体? – 抽样调查的组织方式有哪些?
第一节 抽样调查与抽样推断的相 关概念
一、抽样调查与抽样推断
抽样调查:是一种科学的非全面调查。 它是按照随机原则从调查对象的总体中 抽取部分单位进行调查,并根据这部分 单位的调查结果推断总体的数量特征。
抽样推断:广义上的抽样调查其实已包 含了抽样推断,它是在按照随机原则从调 查对象的总体中抽取部分单位进行抽样调 查的基础上,根据这部分单位的调查结果 推断总体的数量特征的一种由局部推导全 局的统计分析方法。
三、随机抽样的具体方法
(四)整群随机抽样 优点:样本单位比较集中,调查动作比较方便,可 以节省人力、物力、财力和时间。
缺点:样本分布不均匀、代表性差,与上述几种抽 样方法相比较,在样本数量相同的情况下抽样误差 较大。
三、随机抽样的具体方法
(四)整群随机抽样
整群抽样
抽样对象 基本假设 群 群内差异大
三、随机抽样的具体方法
(二)等距随机抽样 :也叫机械随机抽样或系统随机抽 样。(随机+等距)它是先将总体各单位按一定标志顺序 排列,编上号,然后用总体单位数除以样本单位数,求得 抽样间隔,并在第一个抽样间隔内随机抽取一个单位作为 第一个样本单位,最后按抽样间隔做等距抽样,直到抽取 最后一个样本单位为止。 例:
(一)简单随机抽样 :又称纯随机抽样,即 对总体单位不进行任何组合,仅按随机原则直 接抽取样本。 1.直接抽样法 2.抽签法或抓阄法
3.随机数字表法
图1 简单随机抽样
三、随机抽样的具体方法
(一)简单随机抽样 简单随机抽样的优、缺点: 优点:在抽样中完全排除了主观因素的干扰,最符合随机原则,众多抽样方法 中最简单,操作方法最容易理解 缺点:(1)简单随机抽样需要把总体中每一个体编上号码,如果总体很大,这种 编号几乎是不可能的,故它只适用于单位数量不多的调查对象。(2)这种抽样方 法常常忽略总体已有的信息,降低了样本的代表性 。如,对某一地区的学生进 行抽样,测试该地区学生的智力水平,重点学校与一般学校的学生是有差异的, 如果不考虑这个因素,则所抽取的样本很可能重点学校的学生多些,或根本没 有重点学校的学生。这样样本的代表性是不理想的,若充分考虑并利用重点与 一般存在差异这一已有信息,可以设计出更好的抽样方法(见后面的分层随机 抽样) (3)抽取的样本可能比较分散或过分集中,这将给实际调查工作带来许多 困难。