统计学原理8.2A参数估计
置信水平
1. 将构造置信区间的步骤重复很多次,置信 区间包含总体参数真值的次数所占的比率 称为置信水平
2. 表示为 (1 -
为是总体参数未在区间内的比率
3. 常用的置信水平值有 99%, 95%, 90%
相应的 为0.01,0.05,0.10
置信区间
(confidence interval)
2. 使用 t 分布统计量 t x ~ t(n 1)
sn
3. 总体均值 在1-置信水平下的置信区间为
s x t 2 n
t 分布
t 分布是类似正态分布的一种对称分布,它通常要比 正态分布平坦和分散。一个特定的分布依赖于称之 为自由度的参数。随着自由度的增大,分布也逐渐 趋于正态分布
标准正态分布
1. 由样本统计量所构造的总体参数的估计区间称 为置信区间
2. 统计学家在某种程度上确信这个区间会包含真 正的总体参数,所以给它取名为置信区间
3. 用一个具体的样本所构造的区间是一个特定的 区间,我们无法知道这个样本所产生的区间是 否包含总体参数的真值
– 我们只能是希望这个区间是大量包含总体参数真值
该企业生产的食品总体重量标准差的的置信区
间为7.54g~13.43g
两个总体参数的区间估计
一、两个总体均值之差的区间估计 二、两个总体比率之差的区间估计 三、两个总体方差比的区间估计
两个总体参数的区间估计
总体参数 均值之差 比率之差 方差比
符号表示
1 2 1 2
2 1
2 2
样本统计量 x1 x2 p1 p2 s12 s22
两个总体均值之差的估计
(大样本)
• 1.假定条件
– 两个总体都服从正态分布,12、 22已知
– 若不是正态分布, 可以用正态分布来近似 (n130和n230)
– 两个样本是独立的随机样本
2. 使用正态分布统计量 z
z (x1 x2 ) (1 2 ) ~ N (0,1)
2 1
2 2
n1 n2
区间估计
(interval estimate)
区间估计是在一定的概率保证下,用以点估计值为中心的一个区间范围来估计总体参 数的估计方法。
根据平均数样本与样本成数的抽样极限误差的定义,经过计算和变换,可以得到:
上面的不等式,就是总体平均数和总体成数的置信区间。
1. 在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得 到的
样本均值
_ x x
90 15
n6
抽样平均误差
_ 0.05 0.02
xn
6
抽样极限误差
_ t
1.96 0.02 0.04
x
n
即,在95%的概率保证下,该批产品直径的置信区间为:
_
15 0.04 X 15 0.04
,即(14.96,15.04)厘米。 9
例题:某企业对一批产品采用重复抽样进行质量抽检,共抽 取样品200只,样本优质品率为85%,试求其置信度为90%时 的优质品率区间。
样本数据计算得: x 105.36
总体均值在1-置信水平下的置信区间为
10
x z 2
105.36 1.96 n
25
105.36 3.92
101.44,109.28
该食品平均重量的置信区间为101.44g~109.28g
总体均值的区间估计
(例题分析)
【例】一家保险公司收集到由36投保个人组成的随 机样本,得到每个投保人的年龄(周岁)数据如下表。 试建立投保人年龄90%的置信区间
36个投保人年龄的数据
23
35
39
27
36
44
36
42
46
43
31
33
42
53
45
54
47
24
34
28
39
36
44
40
39
49
38
34
48
50
34
39
45
48
45
32
总体均值的区间估计
(例题分析)
解:已知n=36, 1- = 90%,z/2=1.645。根据样本数据
计算得: x 39.5 s 7.77
总体均值在1- 置信水平下的置信区间为
x z 2
s 39.5 1.645 7.77
n
36
39.5 2.13
37.37,41.63
投保人平均年龄的置信区间为37.37岁~41.63岁
总体均值的区间估计
(小样本)
• 1. 假定条件
– 总体服从正态分布,且方差(2) 未知
– 小样本 (n < 30)
职工中女性比率的置 信区间
p z 2
p(1 p) n
65% 1.96 65%(1 65%) 100
65% 9.35%
55.65%,74.35%
该城市下岗职工中女性比率的置信区间 为55.65%~74.35%
总体方差的区间估计
1. 估计一个总体的方差或标准差
2. 假设总体服从正态分布
2. 根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量
– 比如,某班级平均分数在75~85之间,置信水平是95%
区间估计的图示
x z 2 x
x
- 2.58x
x
-1.65 x
+1.65x +2.58x
-1.96x
+1.96x
90%的样本
95% 的样本
99% 的样本
标准正态分布
t (df = 13)
t 分布
x
t 分布与标准正态分布的比较
t (df = 5) z
t
不同自由度的t分布
总体均值的区间估计
(例题分析)
【例】已知某种灯泡的寿命服从正态分布,现从一 批灯泡中随机抽取16只,测得其使用寿命(小时)如 下。建立该批灯泡平均使用寿命95%的置信区间
16灯泡使用寿命的数据
样本成数 p 0.85
成数的抽样平均误差
p
p(1 p) n
0.85 0.15 2.52% 200
成数的抽样极限误差 t p 1.64 2.52% 4.13% p
即,在95%的概率保证下,总体优质品率的置信度为90%的置信区 间为 :85% 4.13% P 85% 4.13%,即(80.87%,89.13%)
参数估计
2020/5/31
估计量与估计值
(estimator & estimated value)
1. 估计量:用于估计总体参数的随机变量
– 如样本均值,样本比率、样本方差等
– 例如: 样本均值就是总体均值 的一个估计量
2. 参数用 表示,估计量用 表示ˆ
3. 估计值:估计参数时计算出来的统计量的具体值
– 如果样本均值 x =80,则80就是的估计值
点估计
(point estimate)
点估计也称定值估计,是指以实际抽样调查资料得到的样本指 标值做为总体指标的估计值。
1. 用样本的估计量直接作为总体参数的估计值
– 例如:用样本均值直接作为总体均值的估计 – 例如:用两个样本均值之差直接作为总体均值之差的估计
3. 总体方差 2 的点估计量为s2,且
n 1s 2 ~ 2 n 1
2
4. 总体方差在1- 置信水平下的置信区间为
n 1s2 2 2 n 1
2
n 1s2
2 1 2
n 1
总体方差的区间估计
(图示)
总体方差 1 的置信区间
2
1
2
2
2
2
自由度为n-1的2分布
总体方差的区间估计 (例题)
【例】一家食品生产企业以生产袋装食品为主,现从某天生 产的一批食品中随机抽取了25袋,测得每袋重量如下表所 示。已知产品重量的分布服从正态分布。以95%的置信水平 建立该种食品重量方差的置信区间
x
p
2
s2
总体均值的区间估计
(大样本)
• 1. 假定条件
– 总体服从正态分布,且方差(2) 未知
– 如果不是正态分布,可由正态分布来近似 (n 30)
2. 使用正态分布统计量 z
z x ~ N (0,1) n
3. 总体均值 在1- 置信水平下的置信区间为
x z 2
n
或 x z 2
s ( 未知)
(consistency)
• 一致性:随着样本容量的增大,估计量 的
• 数
值越来越接近被估计的总体参
P( ˆ) 较大的样本容量 B
较小的样本容量
A
ˆ
一个总体参数的区间估计
一、总体均值的区间估计 二、总体比率的区间估计 三、总体方差的区间估计
一个总体参数的区间估计
总体参数 均值 比率 方差
符号表示 样本统计量
解:已知n=25,1-=95% ,根据样本数据计算得
s2 =93.21
2
2
(n
1)
2 0.025
(24)
39.364
2 1
2
(n
1)
2 0.975
(24)
12.401
2置信度为95%的置信区间为
25 1 93.21 2 25 1 93.21
39.364
12.401
56.83 2 180.39
n
总体均值的区间估计
【 例 】一家食品生产企业以生产袋装食品为主,为对产量质量
进行监测,企业质检部门经常要进行抽检,以分析每袋重量是 否符合要求。现从某天生产的一批食品中随机抽取了25袋,测 得每袋重量如下表所示。已知产品重量的分布服从正态分布, 且总体标准差为10g。试估计该批产品平均重量的置信区间, 置信水平为95%