第七章 抽样推断与检验
(一)抽样推断
料计算样本指标,并据以推算总体相应特征的值一种统计 分析方法。
抽样推断是在抽样调查的基础上,利用样本的实际资
统计推断的过程
总体
样 本
样本统计量 例如:样本均 值、比例、方 差
抽样推断的特点
第一,建立在随机取样的基础上,按随机原则抽样 第二,是由部分推算整体的一种认识方法 第三,以大数法则和中心极限定理为理论依据 第四,抽样误差可以事先计算和控制
P
当 N 很大时
例
某灯泡厂从一天所生产的产品10,000个中抽取100个 检查其寿命,得平均寿命为2000小时,根据以往资 料σ=20小时,试求抽样平均误差。
重复抽样:
x
不重复抽样:
2
20
2
(小时) 2
n
100
x
2
(1
n N
)
20
2
(1
100 10000
) 1.99(小时)
P(X )
B A
较小的样本容量
X
3.有效性
设
ˆ1 , ˆ 2为 的两个无偏估计量, ˆ1的方差小于 ˆ 2
的方差,即V( ˆ1 )< V( ˆ2 )则称
ˆ1 是较 ˆ2 有效的估计量。
有效性
一个方差较小的无偏估计量称为一个更有效的
估计量。
如,与其他估计量相比,样本均值是一个更有效的
2
2
无偏性
•
估计量的数学期望等于被估计的总体参数
P( X ) 无偏 有偏
A
C
X
2.一致性
• 对于任意给定的ε>0,有
lim P { ˆ } 1
对于这种极限,我们称估计量 ˆ 依概率收敛于 。
一致性 •
随着样本容量的增大,估计量越来越接近被 估计的总体参数
较大的样本容量
2 2 2
例2
某笔厂月产10000支金笔,以前多次抽样调查,一等 品率为90%、92%、96%和94%,现在要求误差范围在2% 之内,可靠程度达95.45%,问必须抽取多少单位数?
解: N 10000,P 90%, p 2% 重复抽样: n t P(1-P) p
2 2 2
F (t ) 95.45% 900(支)
解: N 4000, 0.2,t 3, 1.5 n t N
2 2
N t
2 2
2
3 (1.5) 4000
2 2
(0.2) 4000 3 (1.5)
2 2
2
450(人)
若误差范围缩小
2 2
1 2
(即0.1M ), 则 1344(人)
3
n
3 (1.5) 4000 (0.1) 4000 3 (1.5)
n
100
例
某玻璃器皿厂某日生产15000只印花玻璃杯, 现按重复抽样方法从中抽取150只进行质量检验, 有147只合格,试求这批印花玻璃杯合格率的抽样 平均误差。
p 147 150 p p(1 p ) n 0.98 (1 0.98) 150 1.14% 98%
若按不重复抽方式:
x
n
t p 1 p
2
2 p
不重复抽样
n t N
2 2
Nx t
2 2
2
n
t p 1 p N
2
N
2 p
t p 1 p
2
例1
建筑工地打土方工人4000人,需测定平均每人工 作量,要求误差范围不超过0.2M3,并需有99.73%保证 程度。根据过去资料σ为1.5M3、1.36M3和1.48M3,求 样本数应是多少?如果误差范围缩小一半,其他条件不 变,样本数又应是多少?
(二)抽样平均误差
抽样平均误差就是用来反映抽样误差的一 般水平的指标。通常用符号δ来表示。 用 x 表示平均数的抽样平均误差; p 表示成数的抽样平均误差。
M表示可能出现的样本种数
x
x
M
2
p
M
P
2
p
1、平均数的抽样平均误差(简单随机抽样)
重复抽样: 不重复抽样:
第七章抽样推断与检验
第一节
抽样设计
第二节
第三节
参数估计
假设检验
1
学习目的和要求
明确抽样推断的概念、特点; 了解几种基本的抽样推断方式; 熟练掌握参数的区间估计方法; 了解假设检验的基本原理和方法。
2
学习重点
1、参数估计 2、假设检验
3
学习难点
假设检验的基本原理和方法
第一节
抽样设计
一、抽样推断与抽样设计的概念
Px Z /2 x Z /2 1 a n n
1
a
则称区间(θ1,θ2)为总体指标θ的臵信区间,
臵信概率为1
a
a 为显著性水平,
θl是臵信下限,θ2是臵信上限。
(一)总体均值的区间估计 (二)总体成数的区间估计 (三)总体方差的区间估计
(一)总体均值的区间估计 进行总体均值的区间估计,要考虑三个问题: • • • 首先是总体分布形式 其次是总体方差是否已知 再次是样本容量n的大小
1、重复抽样: 2、不重复抽样:
1 N
1 1 1 、 、 ...... N N 1 N 2 N n 1
四、几种基本的抽样方式 (一)简单随机抽样(纯随机抽样)
简单随机抽样是按随机原则直接从总体N个
单位中抽取n个单位作为样本。 在抽样之前要求对总体各单位加以编号,然 后用抽签的方式或根据《随机数字表》来抽必要 的单位数。简单随机抽样是抽样中最基本的抽样 组织形式,它适用于均匀总体。
(一)影响因素 用户对抽样推断可靠程度和精确度的要求。 不同的抽样组织方式。 不同的抽样组织方法。 总体变量值的差异程度。 按上述依据确定的抽样单位数,还要结合调查人 力、物力和财务的许可情况加以适当调整。
(二)必要抽样单位数的计算(简单随机抽样) 重复抽样
n t
2 2 2
X
n
2
n
X
n
2
N n N 1
当总体单位数N很大时
X
n 1 n N
2
2、成数的抽样平均误差(简单随机抽样)
重复抽样:
P
P 1 P n
不重复抽样:
P 1 P N n n N 1 p 1 p n 1 n N
估计量
P(X )
均值的抽样分布
B
A
中位数的抽样分布
X
二、区间估计
区间估计是用一个区间去估计未知参数, 即把未知参数值估计在某两个界限之间。 对于待估参数θ,找出样本的两个统计量θ1和θ2, 使被未知参数θ落在区间(θ1,θ2)内的概率为1-α, 0<α<1为已知的。即
,
P 1 2
(二)类型抽样(分层抽样)
类型抽样在抽样之前,先将总体N个抽样
单位按某一标志分为k个组,然后在各组内分 别独立的进行随机抽样。
(三)等距抽样(机械抽样)
等距抽样先将总体各抽样单元按某一
标志和顺序排队,然后每隔一定的间隔抽 取一个单元组成样本进行调查。 (1)无关标志:选择标志与抽样调查内容无关。 (2)有关标志:选择标志与抽样调查内容有关。
P 表示总体成数P的估计量,
2 ˆ 表示总体方差 2 的估计量,则点估计的基本公式为:
x
p P
ˆ =S2
2
(二)点估计量优劣的标准
1.无偏性
设
ˆ为未知参数 的估计量,若估计量
ˆ 的期望等于未知参数的真值,即
E (ˆ )
则称 ˆ
为 的无偏估计量。
E x Ep P E S n 1
t
x
(t为概率度)
t t
x
p
p
概率度t 1 1.96 2 3
臵信概率F(t) 0.6827 0.95 0.9545 0.9973
(四)抽样误差的影响因素:
1. 总体标志的变异程度。
2. 抽样单位数目的多少。
3. 不同的抽样方法。
4. 不同的抽样组织形式。
六、必要抽样单位数的确定
性计算的综合指标。
与常用的总体参数相对应,有样本平均数、 样本方差和样本成数等。
统计量如何计算?
x
n
x
或
xf f
2
S
2
x x
n n1 n
或
x x f
2
f
xp p S
2 p
P 1 P
三、重复抽样和不重复抽样
抽样的基本方法有重复抽样和不重复抽样两种。
第二节
参数估计
参数估计就是利用实际调查计算的样本统计量 来估计相应的总体指标的数值。
点估计 区间估计
一、点估计
(一)点估计量的方法 参数点估计的基本特点是,根据总体指标的 结构形式设计样本指标(统计量)作为总体参数的 估计量,并以样本指标的实际值直接作为相应 总体参数的估计值。 设 表示总体平均数 的估计量,
它有什么作用?
抽样推断的主要应用场合
1、在不可能进行全面调查的时候 2、实施全面调查困难时 3、为了节省调查的人力、费用和时间 4、抽样调查的结果可被用来检验和修正全面调查的结果 5、对工业生产过程的稳定性进行检测并实现质量控制 6、对总体的某些假设进行控制