第六章抽样估计
抽样估计中的基本概念
(一)总体和样本 (二)总体指标和样本指标 (三)重复抽样和不重复抽样
总体和样本
总体:研究现象的全体,由所研究范围
内具有某种相同性质的全体单位所组成 的整体。通常用N表示。
属性总体 品质标志
总 体
变量总体 数量标志
样本(子样):从总体中随机抽取出来,
代表总体的那部分单位的集合。 样本单位数,又称样本容量,通常用n表 示。
业名录、电话本、花名册、俱 乐部名录、黄页簿、工商局企 业登记库、行业年鉴等都是市 场调查中常用的抽样框。
1.抽样估计的概述
概念:
在抽样调查的基础上,用样本的实际资料计算样 本指标,并据此估计和推断总体相应数量特征的 一种统计推断方法。
特点:
随机原则抽取; 部分单位推断总体; 误差可算可控; 基于概率的一种统计推断方法。
N
i i 1
k
i
类型抽样确定各组样本的方法:
N1
总体N
n1 n2
n3
比例抽样
n1
Ni n N
N2
N3
适宜抽样
n1
Ni i n N i i
例:某项粮食播种面积20000亩,其中有平原和山区两种地形。以类型 抽样的方法了解平均粮食产量。
地形 平原 山区 合计 全部面积(Ni) 14000 6000 20000 样本面积(ni)
适用范围: 总体规模不大,内部差异较小。
例:一个班组有A、B、C、D、E 5个工人,随机抽取2个工人的日 工资数作为了解整个班组平均工资水平的样本。 可能的结果是
样本号 A A B C D E B C D E
有放回抽样:25个样本 不放回抽样:20个样本
2. 等距抽样(机械抽样或系统抽样)
将总体按某一标志值顺序排列,然后相等距离或相等间隔抽取样本 单位。
x
2 ( x X )
M
P
2 ( p P )
M
(例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总 体的均值、方差及分布如下 总体分布
.3
均值和方差
x
i 1
N
i
.2 .1 0
1 2 3 4
理论基础:
大数法则、中心极限定理 大数法则:关于大量的随机现象具有稳定性质的 法则。它论证了抽样平均数趋近于总体平均数的 趋势,为抽样估计提供了重要的依据。 中心极限定理:研究变量和分布序列的极限定理。 如果总体变量存在有限的平均数和方差,那么不 论这个总体变量分布如何,随着抽样单位数n的增 加,抽样平均数的分布将趋近于正态分布。
因 此:理论上讲,抽样误差一般指随机误差, 而不包括登记性误差和系统性偏差。
影响抽样误差的因素
总体各单位的差异程度:
标准差越大,抽样误差越大;
样本单位数的多少:
n 越大,抽样误差越小; 抽样方法:不重复抽样比重复抽样小; 抽样组织方式:简单随机抽样最大。
抽样误差的侧度
(一)抽样实际误差 (二)抽样平均误差 (三)抽样极限误差
样本 从总体中抽出的部分单位 统计量 样本容量 样本平均数 样本比率 样本方差 样本标准差
n x p s2 s
总体 研究对象的全部单位 参数 总体容量 总体平均数 总体比率 总体方差 总体标准差
N
P
符号
2
随机抽样设计
1. 纯随机抽样(简单随机抽样)
对总体不做任何分类或排序,完全按随机原则抽样。
总体指标的数值也是唯一确定的
推断和估计
总体指标(未知)
总体指标:参
数(未知量)
统计推断
样本总体指标:统
计量(已知量)
注意
总体是唯一确定 的,样本总体不唯一
对于变量总体,常用的总体指标有总体 平均数 、总体标准差
设总体变量X为:X1,X2,X3…,XN,则有:
或
或
X
m i 1
i m
X fi
4. 整群抽样
将总体按某个标志分为多个群,按纯随机抽样方式或等距抽样方式, 抽取若干群,然后对所抽中的各群中的全部单位一一进行调查。
适宜范围:不适合单个抽样的场合,就可采用整群抽样方式。 优缺点:调查方便,但抽样误差较大。
总群数 R =13 A B C F D G H K I J C G D K n=nc+nd+ng+nk 样本数 r =4 样本容量
E
L
M
例:从某县100个村中抽出10个村,进行全面调查,就可以大致了 解农村家庭副业发展情况。
5. 多阶段抽样
总体包含的单位很多,分布很广,要通过一次抽样抽选样本很困 难,此时,可以将其分成若干阶段,然后逐阶段进行抽样,以完成 整个抽样过程。 特点:多个阶段、多种方法综合抽样,优点是降低抽样成本。
N1 P N
,
N 0 N N1 Q 1 P N N
样本指标:根据样本各单位标志值或标志
属性计算的综合指标,也称统计量,它是 来估计和推断总体参数的。 与总体指标相对应,有样本平均数、样本 成数及样本标准差等。
设样本变量x的观察值为:x1,x2,…,xn,则:
样本平均数:
x x n
Байду номын сангаас
3
4
1
2 3 4
1,1
2,1 3,1 4,1
1,2
2,2 3,2 4,2
1,3
2,3 3,3 4,3
1,4
2,4 3,4 4,4
(例题分析)
计算出各样本的均值,如下表。并给出样本均 值的抽样分布
16个样本的均值(x)
.3
P (X )
nk n1 n2 n N1 N 2 Nk N
类型适宜抽样:考虑各类型标志变动程度 i 不同,变动程度大的组
要多抽样,变动程度小的类型组可少抽样,使得各类型组的变动程度 Ni n i 在所有类型变动程度之和 N 中的比例相同,等同于 或 N
k i i i 1
n
ni n
N i i
量又较大。
优点:比简单纯随机抽样更精确,能以较少的抽样单位数得到较准确的
推断结果。特别是当总体各单位变量值大小悬殊、各组标志变动程度很 大时,划分类型能保证各组都有选中的机会。
• 类型抽样分类
类型比例抽样:按统一的比例来确定各类型组应抽选的样本单位数,
即各类型中抽取的样本单位数 ni 占各类型组所有单位数 Ni 的比例 是相等的,等同于样本单位总数 n 占总体单位数 N 的比例
同一总体单位有可能被重复抽中, 而且每次抽取都是独立进行
不重复抽样
抽出 个体 特点
又被称作不重置抽样、不 放回抽样 登记 特征 继续 抽取
同一总体中每个单位被抽中的机会并 不均等,在连续抽取时,每次抽取都 不是独立进行。
是最常用的抽样方法,用于无限总体和许多 有限总体样本单位的抽样。
名称 定义 特征
第六章 抽样估计
主要内容
1.抽样估计概述 2.抽样误差 3.抽样估计的方法 4.样本容量的确定
抽样调查的程序
定 义 总 体 及 样 本 确 定 样 本 容 量 进 入 调 查 阶 段
设 计 抽 样 方 案
选 择 抽 样 框
选 择 抽 样 方 法
选择抽样框
抽样框就是所有总体单位的集合, 是总体的数据目录或全部总体单位 的名单。 根据抽样框可以重新界定总体。如 抽样框是电话簿,则家庭成员总体 可以被重新界定为列入电话簿中的 那部分家庭的成员。
2
fi
i 1
对于属性总体,最常用的指标是成数。
总体成数表示总体中具有某种性质的单位数 在总体全部单位数中所占的比重,以P表示;总
体中不具有某种性质的单位数在总体全部单位数 中所占的比重则以Q表示。 设总体N个单位中,有N1个单位具有某种性质, N0个单位不具有某种性质,N1+ N0=N,则有:
样本均值的抽样分布
(例题分析)
总体分布
.3 P(X)
抽样分布
.3 .2 .1 0
.2 .1 0
1
2
3
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0
X
= 2.5
σ2 =1.25
X 2.5 2 X 0.625
在实际抽样调查中,总体单位 数N常常很大,样本单位数n一般也 不小于30,由此产生的所有样本数 目是极大的,不可能抽完所有可能 的样本;同时,在开展抽样调查之 前,总体指标是未知的。因此,实 际工作中,定义式缺乏可操作性。
例:对某山区的林采蓄积量作抽样调查。将总体50块面积相等的地 划为10个区,每个区包括5个地块。采用两阶段抽样,先从10个区 选中30%,再从选中的区域中抽取60%的地块组成样本进行调查。
2.抽样误差
抽样误差地概念 抽样误差的侧度
抽样误差
----指所选取的样本的结果不能
完全代表总体而导致的误差。
排序标志
无关标志
有关标志
间隔距离:
N k n
N:总体单位数 n:需要抽取的样本单位数
例:从某企业5000名职工中抽取100人进行家庭收入水平调查。 样本的距离=
5000 50 100
起点的选择:按姓氏排序,在第一个间隔中随机选取。