第五章抽样与参数估计
影响区间宽度的因素
1. 数据的离散程度,用 数据的离散程度, σ 来测度 2. 样本容量n, 样本容量n 3. 置信水平 (1 - α),影 响 Z 的大小 极限误差
∇ x = zα
σ
n
2
抽样平均误差
第三节 总体均值和总体比例 的区间估计
一. 总体均值的区间估计 二. 总体比例的区间估计 三. 样本容量的确定
样本均值的分布与总体分布的比较
总体分布
.3 P(x)
抽样分布
.3 .2 .1 0 1 2 3 4
.2 .1 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
µ = 2.5
σ2 =1.25
µx = 2.5 2 σx = 0.625
样本均值的抽样分布 与中心极限定理
当总体服从正态分布N 当总体服从正态分布N ~ (µ,σ2 )时,来自该总体的所 有容量为n的样本的均值 也服从正态分布, 有容量为n的样本的均值X也服从正态分布,X 的 数学期望为µ 方差为σ 数学期望为µ,方差为σ2/n。即X~N(µ,σ2/n)
90%的样本 90%的样本 95% 的样本 99% 的样本
由于样本均值的抽样分布服从正态分布, 由于样本均值的抽样分布服从正态分布,
X
σ2
n = σ X2
σ2 N µ, n
Z=
标准化
X−µ
σ
n
Z
N ( 0,1)
Zα
n
给定
1 − α 查正态分布双侧表,可得临界值 查正态分布双侧表,
置信区间
均 值 σ2 已知 σ2 未知
比例
方差
落在总体均值某一区间内的样本
X σ2 N µ, n
X = µ ± Zσx
2.58σ µ - 2.58σx
_ σx
σ2
n
= σ X2
µ -1.65 σx
µ
+1.65σ µ +1.65σx
µ + 2.58x
X
µ -1.96 σx
+1.96σ µ +1.96σx
(n−1 s )
2
σ
2
~χ
2 (n−1)
将χ2(n – 1)称为自由度为(n-1)的卡方分布 1)称为自由度为( 1)的卡方分布
卡方 (χ2) 分布
选择容量为n 选择容量为 的
总体
不同容量样本的抽样分布
n=1 n=4 n=10
简单随机样本
σ µ
计算样本方差S 计算样本方差 2
计算卡方值
n=20
χ2 = (n-1)S2/σ2
使得下式成立
−Z p X − µ p Z = 1− α P α α2 σ 2 n 对括号里不等式移项, P − Zα ⋅ σ 2 n p X − µ p Zα ⋅ σ
2
= 1−α n
2
P -X − Z α ⋅ σ 2 P X + Zα ⋅ σ 2 即
.3 .2 .1 0 1 2 3 4
µ=
∑X
i= 1
N
i
N
N
= 2.5
σ = i=1
2
(Xi − µ)2 ∑ N
=1.25
样本均值的抽样分布
(一个例子)
现从总体中抽取n 现从总体中抽取n=2的简单随机样本,在重复 的简单随机样本, 抽样条件下,共有4 16个样本。 抽样条件下,共有42=16个样本。所有样本的结果 如下表
n n
p − µ p − X+Z α ⋅ σ f + µ f + X-Z α ⋅ σ
2
= 1−α n = 1−α n
= 1−α P X − Zα ⋅ σ p µ p X+Z α ⋅ σ 2 2 n n 表示, X 落在以 µ 为中心的一个区间概率为1 − α
较大的样本容量
P(X )
B A
较小的样本容量
µ
X
区间估计
区间估计
(概念要点)
1. 根据一个样本的观察值给出总体参数的估计范围 2. 给出总体参数落在这一区间的概率 3. 例如: 总体均值落在50~70之间,置信度为 95%
置信区间 样本统计量 (点估计) 点估计)
置信下限
置信上限
置信区间估计
(内容)
16个样本的均值(x) 个样本的均值( ) 个样本的均值
第一个 观察值 .3 .2 .1 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x P(x)
第二个观察值 1 1.0 1.5 2.0 2.5 2 1.5 2.0 2.5 3.0 3 2.0 2.5 3.0 3.5 4 2.5 3.0 3.5 4.0
总体均值的区间估计
(σ2已知)
总体均值的置信区间
(σ2 已知)
1. 假定条件
• • 总体服从正态分布,且总体方差( 总体服从正态分布,且总体方差(σ2)已知 如果不是正态分布,可以由正态分布 正态分布来近似 30) 如果不是正态分布,可以由正态分布来近似 (n ≥ 30) 大样本
根据大数定律,样本分还是 2. 使用正态分布统计量Z 趋近正态分布,只是由样本 x −µ Z= ~ N(0,1 ) 均值估计该非正态总体具体 分布的参数 σ n 3. 总体均值 µ 在1-α置信水平下的置信区间为 置信水平下的置信区间为 σ σ , x + Zα 2 x −Zα 2 n n
第五章 抽样与参数估计
参数估计在统计方法中的地位
统计方法
描述统计 推断统计
参数估计
假设检验
学习目标
1. 2. 3. 4. 了解抽样和抽样分布的基本概念 理解抽样分布与总体分布的关系 了解点估计的概念和估计量的优良标准 掌握总体均值、 掌握总体均值、总体比例和总体方差的区 间估计
样本均值的抽样分布
抽样分布
(概念要点)
1. 所有样本指标(如均值、比例、方差等) 所形成的分布称为抽样分布 2. 是一种理论概率分布 3. 随机变量是 样本统计量
• 样本均值, 样本比例等
4. 结果来自容量相同的所有可能样本
样本均值的抽样分布
(一个例子)
【例】设一个总体,含有4个元素(个体),即总体单 设一个总体,含有4个元素(个体) 位数N 位数 N=4 。 4 个个体分别为 X1=1 、 X2=2 、 X3=3 、 X4=4 个个体分别为X 。总体的均值、方差及分布如下 总体的均值、 均值和方差 总体分布
µ
P
x ˆ p
s2 x1 − x2 ˆ1 ˆ p − p2
2 2 s1 s2
σ2 µ1 −µ2
P −P 1 2
2 2 σ1 σ2
点估计
点估计
(概念要点)
1. 从总体中抽取一个样本,根据该样本的统计 量对总体的未知参数作出一个数值点的估计
例如: 用样本均值作为总体未知均值的估计值 就是一个点估计
2. 点估计没有给出估计值接近总体未知参数程 度的信息 3. 点估计的方法有数字特征值估计法、顺序统 计量法、最大似然法、最小二乘法等
一个任意分 布的总体
σ σx = n
当样本容量足够 大时( 大时(n ≥ 30) , 样本均值的抽样 分布逐渐趋于正 态分布
µx = µ
X
样本方差的抽样分布
样本方差的分布
设总体服从正态分布N 设总体服从正态分布N ~ (µ,σ2 ), X1,X2, …,Xn为来自该正态总体的样本,则样本方 为来自该正态总体的样本, 差 s2 的分布为
总体均值的区间估计
(正态总体:实例)
【 例 】 某种零件 解:已知X ~N(µ, 0.152), x =2.14, n=9, 14, 长度服从正态分 1-α = 0.95,Zα/2=1.96 95, 布 , 从该批产品 总体均值µ的置信区间为 中随机抽取9件 σ σ x − Zα 2 , x + Zα 2 , 测得其平均长 n n 度为21. mm 。 度为 21.4 mm。 0.15 0.15 已知总体标准差 = 21.4 −1.96 ,21.4 +1.96 σ =0.15mm,试 15mm, 9 9 建立该种零件平 = (21.302 21.498) , 均长度的置信区 可以95% 可以95%的概率保证该种零件的平均长 间 , 给定置信水 度在21.302~21. mm之间 度在21.302~21.498 mm之间 平为0 95。 平为0.95。
1 2 3 4
样本均值的抽样分布
所有样本均值的均值和方差
1.0+1.5+L 4.0 + µx = = = 2.5 = µ M 16
i= 1
n
∑x
1 i=
n
i
σ =
2 x
∑(x − µ )
i x
2
M (1.0 − 2.5)2 +L+ (4.0 − 2.5)2 σ2 = = 0.625 = 16 n
式中:M 式中:M为样本数目 比较及结论:1. 比较及结论:1. 样本均值的均值(数学期望)等于总体均值 2. 样本均值的方差等于总体方差的1/n 样本均值的方差等于总体方差的1/n
F
T 统计量的分布
T 统计量的分布
设X1,X2,…,Xn是来自正态总体N~(µ,σ2 )的一个样 是来自正态总体N~(µ 本, 称 (X −µ) T= 为统计量,它服从自由度为( 为统计量,它服从自由度为(n-1)的t 分布 S/ n
t 分布
标准正态分布 t (df = 13)
正态分布
t (df = 5)
计算出所有的
χ2
χ 2值
均值的标准误
1. 所有可能的样本均值的标准差,测度所有 样本均值的离散程度 2. 小于总体标准差 3. 计算公式为