假设检验(hypothesis testing)方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA)➢概述假设检验是分析数据的一种方法。
回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。
这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?”最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。
这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。
最有名的分布就是正态分布,它是:检验的基础。
t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。
➢适用场合·想知道一组或更多组数据的平均值、比例、方差或其他特征时;·当结论是基于更大总体中所取得的样本时。
例如:·想确定一个过程的均值或方差有否改变;·想确定很多数据集的均值或方差是否不同:·想确定两组不同的数据集的比例是否不同;·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。
➢实施步骤假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。
虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。
如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。
这些定义解释了假设检验的慨念,然后再回来看这个步骤。
本书不可能详细地涉及假设检验。
这个步骤是个综述和快速参考。
要得到更多的信息,查阅统计学参考书或请教统计学家。
1确定要从数据中获得的结论。
选择适当的检验方法。
用哪种检验取决于检验的目的和数据的种类。
可以用表5.7和表5.8概括的常用的假设检验,或者请教统计学家以得到帮助。
2建立零假设和备择假设。
确定问题是属于双尾检验、左尾检验还是右尾检验。
3选择显著性水平。
4计算检验统计量,可借助计算机软件。
5用统计分布的统计表或计算机程序等来确定检验统计量的P值。
对于z检验可用表A.1正态曲线以下的曲线。
6把P值与左尾或右尾检验的α或者双尾检验的α/2作比较,如果P值较小,那么拒绝零假设并会得到备择假设可能正确的结论。
否则,不能拒绝零假设,并得出没有足够证据支持备择假设的结论。
➢备择步骤步骤1~4同上。
然后:5用统计表或计算机程序确定如下所示的检验统计量的临界值和拒绝域。
以z检验作为示例,对t检验、F检验或卡方检验,用统计量f、F或χ2来替换z。
6比较检验统计量和拒绝域。
如果检验统计量值落在拒绝域内,拒绝零假设,结论是备择假设可能止确。
否则,不拒绝零假设,结论是没有足够的证据支持备择假设。
➢示例:t检验一家食品杂货店从一供应商处购买几箱苹果,每箱质量为50磅(1lb=0.455kg),固定价格。
供应商保证每箱的平均质量确实是50磅。
产品小组随机抽取10箱称量。
质量分别为:50.1 49.6 50.3 49.9 49.5 49.7 50.0 49.6 49.7 50.2杂货店受骗没有?统计上讲,产品小组的问题是:“我们接受的苹果箱的平均质量少于50磅吗?”零假设是“苹果箱的平均质量等于50磅”,备择假设是“苹果箱的平均质量小于50磅”计划用5%的显著性水平。
在表5.7中找均值与给定的值作比较的检验。
σ未知,样本容量小于30个,假设箱子的质量服从正态分布。
因此用t检验。
因为备择假设是“小于”,所以需要左尾检验。
向在线计算器中输入数据得到以下结果:样本均值= 49.86 标准方差=0.28 t=-1.583 P=0.07因为P值大于0.05,所以不能拒绝零假设,没证据表明他们受骗。
图表5.99显示了t分布,检验统计量t=-1.583,曲线下这个值以外的区域是P=0.07。
用备择步骤,从t表中确定a=0. 05,自由度为9,临界值为t a=-1. 833。
因为是左尾检验,拒绝域是任何小于-1. 833的z值。
检验统计量为-1.583,没有落在拒绝城,所以不拒绝零假设。
图表5.100显示了t分面、临界值、拒绝域和曲线下相等于a=0. 05的区域。
两幅图的比较表明两个实施步骤如何以不同方式得到相同结论的过程。
对左尾情况,只要检验统计量t大于临界值t a,曲线下t值左边的区域即P值就比a大,a就是曲线下t a左边的区域。
➢示例:卡方检验1一家服装零售商想了解其提议的生产线的变化是否会在不同地区被同样地接受。
他们随机挑选了750名顾客,描述了提议的新产品,然后让顾客估计购买的可能性。
他们按地理位置对数据分组,建立了五行、四列的关联表,见图表5.17的关联表。
从表5.8看出,卡方检验是最合适的,比较了各组的分布。
这种检验总是有尾的。
零假设可陈述为“五个地区的顾客在购买可能性分布上没有差异”,备择假没是“五组购买的可能性分布有差异”。
选择显著性水平为5%,计算出自由度为df=12。
大多卡方表按备择步骤设计,可以查询a或l-a,读取临界值。
对a =0. 05和df=12来说,χ2临界值为21.026。
如果检验统计量大于它就拒绝零假设。
用电子制表软件计算每一单元的E。
E代表着零假设为真时的期望值,也就是每个地区的购买可能性分布和整体分布一样时的期望值。
接着计算每单元的(O-E)2÷E,加起来得到检验统计量χ2=22. 53,比临界值21. 026大,所以拒绝零假设。
购买可能性分布随区域而不同。
这个检验等同于检验两个变量是否独立。
结果表明地理区域和购买可能性两个变量不独立。
已知顾客所在的地区就能预测他是否更有可能购买新生产线。
➢另一示例:卡方检验2相同的零售商计划改变产品目录的格式和风格并想了解新的格式是否会有效提高订单。
作为测试,他们随机挑选顾客送出去200 000本新春装目录册,另外1 800 000本目录册是传统版本。
参考关联表例子,用图表5. 18的2×2的关联表来组织数据。
卡方检验比较两者的比例。
零假设是“顾客从测试目录和从标准目录购买的比例相同。
”选用5%的显著性水平。
比较比例,自由度就是l。
a=0. 05和df=1时,χ2临界值为3. 841,检验统计量χ2=278。
因此拒绝零假设,结论是顾客从新格式目录和从旧目录购买的比例显著不同。
➢注意事项·和许多学科一样,统计学有自己专门的语言表达常用的概念。
以下是在实施步骤中常用的定义术语:检验:一种统计检验,如z检验、t检验、F检验或卡方检验。
要知道选用哪种检验是实施步骤中最难的一部分,取决于数据的种类以及想从数据中得出结论的种类。
假设:陈述一事实,由检验证明或反驳。
零假设,H0:是想检验的假没,数据是随机的。
称为“零”是因为通常(不总是)零假设意味着两组数据中或从数据中计算的参数与给定的值之间没有差异。
备择假设,H。
:如果零假设为假,备择假设肯定为真。
通常备择假设暗含数据来自真实的影响而非随机的。
统计量:表征样本数据某些方面的变量。
平均数、均值、方差和比例都是统计量。
检验统计量:用来检验零假设的统计量。
对每种检验都有一个公式表达适当的检验统计量。
这样做如果零假设是真(数据随机),统计量就来自一有名分布,如z检验的正态分布。
双尾、右尾、左尾:描述检验是否涉及频率分布的双侧(双尾)或只是单侧。
如果备择假设表达式中包合≠(不等于),需要双尾检验。
如果包含<(小于)需要左尾检差验,包含>(大于),需要右尾检验。
卡方检验通常是双尾检验。
P值:检验统计量在已知分布下随机发生的概率。
P值等于曲线下检验统计量以外的那个区域(见图表5.99)。
P值越小,越能肯定结果是真的,不只是随机的。
由于各种检验分布都很有名,这些概率能在表中或计算机程序中得到。
显著性水平,a:能确定结果是真的以前反映我们能多大程度确信结果不是随机产生的数值。
通常取1%、5%、10%( a =0.01、0.05、0.10)。
例如:单侧检验a =0.05,只要随机得到的结果小于5%即P<0.05则可断定结果为真。
临界值:概率正好等于a时的检验统计量的值。
曲线尾部临界值以外的区域面积等于a。
对双尾检验来说有两个临界值(见图表5. 100),每一尾部一个,每个临界值以外的区域都等于a/2。
临界值由表或计算机程序确定,记为±z a或±z a/2。
拒绝域:如果检验统计量落在这个区域,零假设就被拒绝的频率分布区域。
对左尾检验来说,这些值位于小于临界值的分布曲线尾部。
对右尾检验而言,则位于大于临界值的曲线尾部。
双尾检验拒绝域包含两头。
置信水平,(1-a)。
置信区间:事件随机发生时以很大概率包含检验统计量的区间范围。
拒绝域是置信区间以外的区域。
显著水平、置信水平、置信区间之间的关系为:a=0.05,置信水平等于95%,则认为落在95%置信区间的值是最有可能单独地随机发生的,不能拒绝零假设。
置信区间的定义讲究技巧。
95%置信区间不是分布所有值的95%落在这一区间而是当一个值属于这个分布时,基于样本数据建立的所有区间95%地包含这个值。
·假设检验中,观察检验分布曲线,计算位于图形水平轴某处的检验统计量。
如果曲线下检验统计量以外的区域P足够小(小于显著水平a),则此统计检验量可能就不服从这个分布。
·因为曲线是频率分布,曲线任何部分以下的区域就是事件发生可能性的度量,标在水平轴上。
这就是在曲线下区域能找到a和P值的原因。
·由于假设检验涉及样本和概率,所以有可能得到错误的结论。
第一类错误就是零假设为真而被拒绝(见图表5. 101)。
第一类错误的概率是:显著性水平a。
在第二个例子中,有5%的可能性就是区域间分布差异确实是随机的。
第二类错误是零假设为假而没有被拒绝。
如果食品杂货店真的在苹果箱的重量上被欺骗则第二类错误发生。
第二类错误的概率β的计算更复杂,超出本书讨论范围。
不幸的是,“a越小,β越大。
但是给定a,增加样本容量,β将变小。
·因为第二类错误概率的存在,当零假设没被拒绝时,不能得出备择假设是错的结论,只能说数据没有提供足够的证据支持备择假设。
·很多网站上有计算器,可以计算检验统计量和检验分布值。
输人数据,计算器计算检验统计量、概率和临界值。
但是要知道采用哪种检验以及如何解释结果,这点很重要。
·成对样本就是两组样本集包含配对的有关联的观察值。
例如:处理前、后相同样本的测量值或者同一样本被不同仪器测量所得的值。
检验假设通常是两组样本的均值相等,换句话说,两组间的均值差是零。