置信区间与假设检验
32
用Minitab计算置信区间
在 在95% 95%置信情况下,实际均值 置信情况下,实际均值 介于 介于54.3882 54.3882和 和55.3318 55.3318之间。 之间。 有 有5% 5%的机会不在此范围 的机会不在此范围
的95%置信区间:
54.3882 55.3318
的95%置信区间:
2
Lean Six Sigma Training—ZeroCost Copyright
我应当了解什么?
计算置信区间以表示样本统计中的不确定性,以及能 计算普通情况的置信度 了解置信区间随着样本规模改变而改变 了解统计检验、检验统计和显著性水平的基础 学习有关假设检验使我们能:
的均值和标准偏差由下列公式
X
和
X
n
当n足够大时,那么X 的分布大致是正态的(“钟形曲线”)
Lean Six Sigma Training—ZeroCost Copyright
15
回到样本变动例子
s= 0.29
Lean Six Sigma Training—ZeroCost Copyright
– – – – – 正确处理不确定性 更加客观 证实或否定假设 控制做出错误决策或结论的风险 如何设置和说明统计检验
Lean Six Sigma Training—ZeroCost Copyright
3
问题: 为什么这么多分布是正态?
为什么这么复杂的东西如此的普遍?
μ
1 P( x) e 2 ( x )2 2 2
27
为何需要置信区间?
置信区间会考虑在估计总体或过程数中的随机误 差。 一般我们计算95%置信区间。这就是说:
–我们95%肯定真正的总体参数(如, 或 )是在我 们计算区间内。 –换言之,我们用于计算置信区间的样本有95%的可能 会给我们一个包括真正总体参数的区间。
Lean Six Sigma Training—ZeroCost Copyright
统计,例如均值和标准偏差,只是总体均值() 和标准偏差()的估计值,而且是基于有限的 数据。 因为不同的样本中估计值不尽相同,我们可以用 统计学的置信区间来量化不确定性。置信区间为 总体参数 ( 和 )提供了似真值范围。
Lean Six Sigma Training—ZeroCost Copyright
n=5
n=3
x
x
n
n=1
Lean Six Sigma Training—ZeroCost Copyright
14
中心极限定理
如果: x1, x2, …, xn 是来自总体的独立衡量值,(即,随机 样本规模为n), 其中X的均值是, X的标准偏差是, 那么:分布 X 给出:
X 1 X 2 X n n
54.1,53.3,56.1,55.7,54.0,54.1,54.5,57.1,55.2,53.8, 54.1,54.1,56.1,55.0,55.9,56.0,54.9,54.3,53.9,55.0
对于每桶石油的真正均值来说,95%的置信区间是什么?
Lean Six Sigma Training—ZeroCost Copyright
30
用Minitab计算置信区间
练习: 文档
HT&CI >工作表 <炼油>
Lean Six Sigma Training—ZeroCost Copyright
31
用Minitab计算置信区间
现在选择: 统计>基本统计量 > 图形 化汇总
Lean Six Sigma Training—ZeroCost Copyright
Parent Population
Sam pling Distributions of x for n = 2
Sampling Distributions of x for n = 5
Sampling Distributions of x for n = 30
经允许重印自Schmidt和Berdine的《基本统计学》 (1997年)
5
样本变动例子
计算 > 随机数据 > 均匀
Lean Six Sigma Training—ZeroCost Copyright
6
样本变动例子
均匀分布中设n = 2500 产生25个样本并存入 C1-C25栏中。
Lean Six Sigma Training—ZeroCost Copyright
7
28
在未知标准偏差情况下 均值 的置信区间
要记住非常重要的一点是,在许多情况下我们并不知 道总体标准偏差。我们通常依靠样本来估计均值和标 准偏差。 样本规模小于100时,最好使用稍后解释的t分布。 再次强调,在许多情况下,真正总体未知,所以我们 用样本估计值(s)。在这种情况下,置信区间变成:
16
样本变动例子
S/n = 0.286/25 = 0.286/5 = 0.057
Lean Six Sigma Training—ZeroCost Copyright
17
中心极限定理
该定理主要用于确定总体均值的合理值,因为假设是正 态,它被应用于统计和质量控制的许多方面 当进行平均值(置信区间、假设检验、ANOVA、控制图 等)的统计检验时,中心极限定理有助于我们满足正态假 设。样本规模越大,我们对正态担心越小
Lean Six Sigma Training—ZeroCost Copyright
20
新车
假设得到一份新工作,作为付出,您决定购买一辆用 了一年的Honda Civic车,以节省汽油钱。以前的车主 保留了原来的标签,您很高兴地看到,在该标签上美 国环保暑估计该车每加仑汽油能行驶31英里。 购买该车后,您立刻将油箱加满,打算全家驱车外出 并在第二天上班去。 几天后,您再次加满油箱,并计算油箱中的汽油能行 驶的英里数。按计算器上的“=”号,显示只有27.1。
Lean Six Sigma Training—ZeroCost Copyright
10
样本变动例子
在C1和C25栏中选择 若干栏,并同时选择 均值统计栏C26。
Lean Six Sigma Training—ZeroCost Copyright
11
样本变动例子
例如,C1-C25 中的一个栏。
Lean Six Sigma Training—ZeroCost Copyright
Lean Six Sigma Training—ZeroCost Copyright
18
样本量指南
(a) Normal (b) Uniform (c) Exponential (d) Parabolic
不管总体总体的形状如何,X-bar样 本分布很快接近正态分布 经验之谈 若总体是正态,X-bar对任何样本规 模来说都是正态的。 若总体至少是对称的,5~20个样本 规模应当是可行的。 较坏的情况是:不管总体离正态多远 ,样本规模30个应足以使X-bar接近 正态。
σ ?
σ
σ
σ
σ
σ
Lean Six Sigma Training—ZeroCost Copyright
4
总体参数对比样本统计
随机抽样,样本量=4
总体
x1 , s1 x2 , s2 x3 , s3
,
总体的统计参数:均值与标准偏差
x4 , s4
总体的统计参数:均值与标准偏差
Lean Six Sigma Training—ZeroCost Copyright
六西格玛培训
置信区间和假设检验
Lean Six Sigma Training—ZeroCost Copyright
学习目的
介绍基本描述性统计,如:
–总体、样本、总体参数、样本统计、样本均值、样本标准偏差
显示如何将中心极限定理应用于样本均值分布 介绍置信区间以表示样本统计中的不确定性以及如何 计算某些普通情况的置信区间 对假设检验进行概述 熟悉假设检验术语 使假设检验与其他统计工具相联系 学会如何用Minitab进行假设检验
0.7666 1.4724
Lean Six Sigma Training—ZeroCost Copyright
33
练习
让我们观察一个正态分布的总体,
– 已知均值=65 – 标准偏差=4 – 这些来自数据集 <置信区间>
班上每名成员从总体(在Minitab中,用 计算>随机数据>来自列 的样本)中随机抽取25个数据点 从C1中抽取25个数据行并将结果存入C2中 以25个样本数据点为基础,运用图形描述性统计计算均值和 sigma的95%置信区间。它们是否包括均值65 和sigma 4? 如果班级人数为25,我们预计一个置信区间不包括均值65,也不 包括sigma 4。
25
什么是置信区间?
置信区间一般有叠加的不确定性: 估计值±误差范围
样本统计± [ ___ X ___ ]
例如 x,s
置信 因子
可变动性 衡量
在有些情况下,不确定性是不对称的 (叠加的),如 。
Lean Six Sigma Training—ZeroCost Copyright
26
为何需要置信区间?
样本变动例子
计算 > 行统计量
Lean Six Sigma Training—ZeroCost Copyright
8
样本变动例子
C1-C25均值统 计存入C26 栏中
Lean Six Sigma Training—ZeroCost Copyright