第六章-抽样调查
解:
(1)
2
n
(1 )
12 2 (1
100
) 1.19(千克 )
x
n
N
100 10000
(2) 若以概率 95.45%(t 2)保证,该农场 10000 亩小麦的平均
亩产量的可能范围为:
X x 400 2 1.19 397.62 ~ 402.38( 千克 ) x
2 N n
n N1
但实际中,往往N很大,n很小,故改用下列公式:
2
n
(1 )
x
nN
上例中,若为不重复抽样,则:
400 (1
100
) 1.99(小时)
x 100 10000
(二) 成数的抽样平均误差
已知:成数的方差为p(1-p)
在重复抽样情况下:
p (1 p )
第六章 抽样调查
第一节 抽样调查的意义 第二节 抽样调查的基本概念 第三节 抽样平均误差 第四节 全及指标的推断 第五节 抽样方案设计 第六节 必要抽样单位数的确定 第七节 假设检验
第一节 抽样调查的意义
一、抽样调查的概念 抽样调查是按随机原则,从全部研
究对象中抽取一部分单位进行观察,并 根据样本的实际数据,对总体的数量特 征做出具有一定可靠程度的估计和判断 其中心问题是如何根据已知的部分资料 来推断未知的总体情况。
(3) 若以概率 99.73%(t 3)保证,该农场 10000 亩小麦的平均 亩产量的可能范围为:
X 400 3 1.19 396.43 ~ 403.57( 千克 )
例2
某机械厂日产某种产品8000件,现采用纯 随机重复抽样方式,从中抽取400件进行观 察,其中有380件为一级品,试以概率 95.45%的可靠程度推断全部产品的一级品率 的范围。
p
n
在不重复抽样情况下:
p (1 p ) n
(1 )
p
n
N
例
某玻璃器皿厂某日生产15000只印花玻璃杯,现 按重复抽样方式从中抽取150只进行质量检验,结 果有147只合格,其余3只为不合格品,试求这批印 花玻璃杯合格率(成数)的抽样平均误差。
N 15000 n 150
p 147 98% 150
样本平 均数 x
40 42 44 46 48 42 44 46 48 50
重置抽样分布--样本平均数的分布
样本平均数 x
34 36 38 40 42 44 46 48 50 合计
频数
1 2 3 4 5 4 3 2 1
25
E(x)xff 42(元)
2(x)(x X f)2f16(元 2)
调查来确定S,代替σ; 4. 用估计的方法。
抽样平均误差的影响因素:
1. 全及总体标志变异程度。——正比关系 2. 抽样单位数目的多少。 ——反比关系 3. 不同的抽样方式。 4. 不同的抽样组织形式。
随机抽样的抽样平均误差
(一) 平均数的抽样平均误差 重复抽样
x
n
或 2
x
n
例
二、抽样调查的特点
1.抽样调查是非全面调查。 2.抽样调查是用样本的指标数值去推算总体 的指标数值。 3.抽样调查是按随机原则抽选调查单位。 4.抽样调查中产生的抽样误差,可以事先计 算并加以控制。
第二节 抽样调查的基本概念
一、全及总体和抽样总体 二、抽样方法
1.重复抽样分布 2.不重复抽样分布
A B DC D E
A B EC D E
– 考虑顺序时:样本个数=Nn=52=25
– 不考虑顺序时:样本个数= CN nn-1((NN-1n)-!n1)!!
不重复抽样
• 例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2
A
A
B
B
AC BC
D
D
C D
•
E
考虑顺序时:样本个数
m n
p
1
当试验次数n充分大时,可以用 频率代替概率。
大数定理的意义:个别现象受偶然因素影响,但是,对总体 的大量观察后进行平均,就能使偶然因素的影响相互抵消, 从而使总体平均数稳定下来,反映出事物变化的一般规律。
中心极限定理
中心极限定理:
1.独立同分布中心极限定理:
x
~
N
p
p(1 p) n
0.98(10.98) 1.14% 150
若按不重复抽样方式:
p
p(1 p) (1 n )
n
N
0.98(10.98) (1 150 ) 1.1374%
150
15000
抽样误差的作用
1. 在于说明样本指标的代表性大小。
误差大,则样本指标代表性低; 误差小,则样本指标代表性高; 误差等于0,则样本指标和总体指标一样大。
2. 说明样本指标和总体指标相差的 一般范围。
第四节 全及指标的推断
一、优良估计
• 无偏性 • 一致性 • 有效性
二、点估计
• 点估计的含义:直接以样本指标作为相应 全及指标的估计量。
x X
p
P
S
2
2
例 在 全 部 产 品 中 , 抽 取 100件 进 行 仔 细 检 查 , 得
重复抽样:又称有放回抽样。
例
1 ,1 ,1 , LL
5000 5000 5000
不重复抽样:又称不放回抽样。
例
1 ,1 ,1 , LL
5000 4999 4998
重复抽样
• 例如从A、B、C、D、E五个字母中随机
抽取两个作为样本。N=5,n=2
A B AC D E
A B BC D E
A B CC D E
N
• 总体成数P是指具有某种特征的单位在总体中 的比重。成数是一种结构相对数,设总体单 位总数目是N,总体中有该特征的单位数是N1。 设x是0、1变量,则有:
P N1 N
样本成数
• 现从总体中抽出n个单位,如果其中有相应特 征的单位数是n1,则样本成数是:
p n1 n
• P也是一个随机变量,利用样本平均数的分布
性质结论,即有:
E(p) p
p
np 1 p
n-1
样本容量与样本个数
• 样本容量:一个样本中所包含的单位数, 用n表示。
• 样本个数:又称样本可能数目,指从一 个总体中所可能抽取的样本的个数。对 于有限总体,样本个数可以计算出来。 样本个数的多少与抽样方法有关。
二、抽样方法
• 验证了以下两个结论:
E(x)X 2 ( x ) 2
n
• 抽样平均数的标准差 反映所有的样本平均 数与总体平均数的平 均误差,称为抽样平 均误差,用 表示。
x
x
n
取得σ的途径有:
1. 用过去全面调查或抽样调查的资料,若同时 有n个σ的资料,应选用数值较大的那个;
2. 用样本标准差S代替全及标准差σ; 3. 在大规模调查前,先搞个小规模的试验性的
解: 抽样一级品率:
注 抽样误差是由于抽样的随机性而产生的样本
指标与总体指标之间的平均离差。
按照定义:
x
(xX )2 K
重复抽样分布--样本平均数的分布
• 某班组5个工人的日工 资为34、38、42、46、 50元。
• = 42
• 2 = 32
• 现用重复抽样的方法 从5人中随机抽2个构 成样本。共有52=25个 样本。如右图。
X
, 2 n
2.德莫福-拉普拉斯中心极限定理:
X~Nnp,npq
大样本的平均数近似服从正态分布。
第三节 抽样平均误差
一、抽样误差的概念及其影响程度
在统计调查中,调查资料与实际情况不 一致,两者的偏离称为统计误差。
登记误差 统计误差代表性误差随 偏机 差误差实 抽际 样误 平差 均误差
• 全及指标:反映总体数量特征的指标。 其数值是唯一的、确定的。
• 抽样指标:根据样本分布计算的指标。 是随机变量。
全及指标和抽样指标
总体
样本
全及指标X、2Fra bibliotekP抽样指标
平均数
x
标准差、方差 S、 S2
成数
p
变量总体和属性总体
• 变量总体各单位标志值可用数量表示
X X
显著性水平,其取值大小由实际问题确定,经常取 1%、5%和10%。
参数估计的两个要求:
– 精度:估计误差的最大范围,通过极限 误差来反映。显然,Δ越小,估计的精度 要求越高,Δ越大,估计的精度要求越低。 极限误差的确定要以实际需要为基本标 准。
– 可靠性:估计正确性的一个概率保证, 通常称为估计的置信度。
x1
x1
x2
x2
x3
x3
x4
表示有(1)100%的
区间包含了X
x4
当F(t)=68.27%时,抽样极限误差等于抽样平均误差 的1倍(t=1); 当F(t)=95.45%时,抽样极限误差等于抽样平均误差 的2倍(t=2); 当F(t)=99.73%时,抽样极限误差等于抽样平均误差 的3倍(t=3);
到 平 均 重 量 x1002克 , 合 格 率 p98% , 我 们 直 接 推 断 全 部 产 品 的 平 均 重 量 X1002克 , 合 格 率 P 98% 。
三、全及指标估计概述
• 设待估计的全及指标是 X ,用以估计该
参数的统计量是 x ,抽样估计的极限误
差是 x ,即: