当前位置:文档之家› 假设检验——非参数检验

假设检验——非参数检验

假设检验(二)——非参数检验假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。

上一节我们所介绍的Z 检验、t 检验,都是参数检验。

它们的共同特点是总体分布正态,并满足某些总体参数的假定条件。

参数检验就是要通过样本统计量去推断或估计总体参数。

然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检验。

这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。

非参数检验是通过检验总体分布情况来实现对总体参数的推断。

非参数检验法与参数检验法相比,特点可以归纳如下:(1)非参数检验一般不需要严格的前提假设;(2)非参数检验特别适用于顺序资料;(3)非参数检验很适用于小样本,并且计算简单;(4)非参数检验法最大的不足是没能充分利用数据资料的全部信息;(5 )非参数检验法目前还不能用于处理因素间的交互作用。

非参数检验的方法很多,分别适用于各种特点的资料。

本节将介绍几种常用的非参数检验方法。

一.2检验2检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。

22检验的方法主要包括适合性检验和独立性检验。

(一)2检验概述2是实得数据与理论数据偏离程度的指标。

其基本公式为:2 ( f0 f e)(公式11—9)fe式中,f0 为实际观察次数,f e 为理论次数。

分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将n 个比值相加,其和就是2。

观察公式可发现,如果实际观察次数与理论次数的差异越小, 2值也就越小。

当 f 0 与 f e 完全相同时,2值为零。

际次数与理论次数之差的大小而变化利用2值去检验实际观察次数与理论次数的差异是否显著的方法称为2检验有两个主要的作第一,可以用来检验各种实际次数与理论次数是否吻合的这类问题统称为适合性检验; 第二, 判断计数的两组或多组资料是否相互关联还是相互独立的问 题,这类问题统称为独立性检验。

2检验的具体步骤与 t 检验基本相同。

第一,建立虚无假设。

例如假定实测次数与理论次数无显著差异,差异仅由机会造成。

第二,计算理论次数,并求出2值。

第三,统计推断。

根据 df 数目和选定的显著性水平, 查 2值表得出超过实得 2值的概率。

把概率的大小,作为接受或拒绝假设的依据。

表 11—92检验统计决断规则(二)适合性检验 适合性检验是应用2检验方法的一种。

它主要适用于检验实际观测次数与理论次数之检查以是否显著, 它所面对的研究对象主要是一个因素多项分类的计数资料, 所以又称为单因素分类2检验或单项表的 2检验。

适合性检验的种类主要有无差假设的适合性检验和实际次数分布 是否属于正态分布的适合性检验,下面逐一进行简要介绍2值的特点为:①2值具有可加性。

②2值永远不会小于零。

③ 2值的大小随着实2检验1. 无差假设的适合性检验所谓无差假设是指各项分类的次数没有差异, 理论次数完全按概率相等的条件计算, 即理论 次数 = 总数/分类项数例 1 ,随机抽取 70 名学生,调查他们对高中分文理科的意见,回答赞成的有 42 人,反对的 有 28 人。

问对分科的意见有无显著差异?解:此例只有两种分类。

因此应有理论次数 f e =70×0.5=35 (人)检验步骤: ( 1)建立假设: H 0 : f 0 f e 30, H 1 : f 0 f e(2)计算2值:平上保留虚无假设,拒绝备择假设。

其结论为:学生对高中文理分科的态度的差异不显著。

例 2,某大学某系的 46 位老年教师中,健康状况属于良好的有 15 人,中等的有 20 人,比 较差的有 11 人,问该系老教师中三种健康状况的人数是否一样? 解:此例有三种分类。

因此应有理论次数f e = 46= 18 (人)e3检验步骤:1)建立假设:H 0 :健康状况好、中、差三种人数H 1 :健康状况好、中、差三种人数不相同2)计算 2值:22(20 18)2 (11 18) 23.4418 18首先确定自由度 df ,本例 df = 3 — 1 = 2 。

查 df = 2 的2表,2(2,0.05) =5.99 ,故有2< 2(2,0.05) ,因此应在 0.05 显著性水平上保留虚无假设,拒绝备择 假设。

其结论为:该系老教师中,健康状况好、中、差三种人数无显著差异2.实际次数分布是否属于正态分布的适合性检验2(f 0 f e )2 =(42 35)2 (28 35) 3522.8353)统计推断。

首先确定自由度 df , 2检验的自由度一般等于分类项数减 1 ,本例 df =2— 1 = 1 。

查 df = 1 的2表, 2(1,0.05) =3.84 ,故有2(1,0.05) ,因此0.05 显著性水22( f 0 f e ) (15 18) 18 3)统计推断2检验还可以通过将正态分布的概率转换为理论次数的数值,来检验某些实际次数分布是否属于正态分布。

例3 ,今对某校100 名学生进行操行评定,分优、良、中、差四等,评定结果为:优19 人、良39 人、中35 人、差7 人。

试检验其分布的形式是否属于正态分布?解:检验步骤:(1)建立假设:H 0 :评定结果服从正态分布H 1 :评定结果不服从正态分布(2)计算2值:首先需求出理论次数。

正态分布的各部分理论次数,是通过正态分布图中面积比率乘以总次数得出的。

在正态分布情况下,正态曲线底边上± 3 之内几乎包含了全部量数,因此我们可将正态分布底线长度从-3 至+3 分为四个等分,每等分为1.5 ,其面积比率为:第一等分(优)的面积:上限3 ,下限为1.5 。

1.5 ~3 之间的面积比率为:0.4987 -0.4332=0.0655 ,即7%。

第二等分(良)的面积:位于0~1.5 之间,其面积比率为0.4332 ,即43%。

第三等分(中)的面积:位于0 ~-1.5 之间,其面积比率为0.4332 ,即43%。

第四等分(差)的面积:位于-1.5 ~-3 之间的面积比率为:0.4987 -0.4332=0.0655 ,即7%。

根据各等分的面积比率,乘以总人数,即可得出理论次数。

如:优的人数为7%× 100=7,良的人数为43%×100=43。

同理可求出中的人数为43,差的人数为7。

即优的f e=7,良的f e=43,中的f e=43,差的f e =7。

代入(公式11—9)有:2 2 2 22 (19 7)2(39 43)2(35 43)2(7 7)222.437 43 43 722.43(3 )统计推断。

首先确定自由度df ,本例df = 4 —1 = 3 。

查df = 2 的2表,2(3,0.05)=7.81 ,2(3,0.01)= 11.345 ,故有2> 2(3,0.01),因此应在0.01 显著性水平上拒绝虚无假设,接受备择假设。

其结论为:此评定结果不服从正态分布三)独立性检验独立性检验也是2检验的一个重要应用。

如果想研究两个或两个以上因素之间是否具有独立性,就可利用2独立性检验。

独立性检验一般都采用表格的形式来显示观察结果,所以独立性检验也称为列联表分析。

当检验对象只有两个因素而且每个因素只有两项分类的列联表就称为2×2 列联表或四格表;而一个因素有R类,另一个因素有C类,这种表称之为R×C表。

本节只讨论二维列联表的情况。

关于二维列联表的独立性检验,需注意几个问题:第一,独立性检验的虚无假设是二因素(或多元素)之间是独立的或无关联,被择假设是二因素(或多因素)自荐有关联或者说差异显著。

一般多用文字叙述而很少用符号代替。

第二,独立性检验的理论次数是直接由列联表所提供的数据推算出来的。

如果用f Ri表示第i 行的和,f Cj 表示第j 列的和,N 为所有数据值和,则第i 行第j 列的方格内的理论次数为:f R i f C jf e ij(公式11—10)eijN第三,二维列联表自由度与二因素各自的分类项数有关。

设R为行分类项数(行数),C 为列分类项数(列数),则自由度为:df (R 1)(C 1)。

1.2× 2 列联表的独立性检验2× 2 列联表就是把样本按两种性质分组,并排成两行两列的表,它是最简单的列联表,简称为四格表。

2×2 列联表用以进行两个组彼此独立互无关联的检验。

独立性检验下面我们从样本的不同情况出发,分别介绍相应的检验方法。

独立样本的2×2 列联表的独立性检验独立样本4 格表的独立性检验,既可以用计算2的基本公式(公式11—9 )计算,也可用面的简捷公式计算:22 =N (ad bc)2(公式11—11)(a b)(c d )(a c)(b d )式中:a,b, c, d 分别是四格表内的实计数2表11—10 2 × 2列联表的2值计算示意表例4 ,设有甲乙两区,欲测验两区中学教学水平,各区随机抽取500 名初三学生,进行统一试题的数学测验,其结果是:甲区及格学生为475 人,不及格为25 人;乙区及格学生460 人,不及格为40 人,问甲区中学与乙区中学的数学测验成绩的差异是否显著?解:检验步骤:(1)建立假设:H 0 :甲区中学与乙区中学数学测验成绩无显著差异H1 :甲区中学与乙区中学数学测验成绩差异显著2)计算2值:表11—11 甲区中学与乙区中学的数学测验成绩表2 1000 (475 40 460 25)23.68= 500 65 935 5003)统计推断。

首先确定自由度df ,本例df =(2-1 )(2-1 )=1,查df =1 的2表,2 2 22(1,0.05) =3.84 ,故有 2<2(1, 0.05) ,因此应在 0.05 显著性水平上保留虚无假设,拒绝备择假设。

其结论为:甲区中学与乙区中学数学测验成绩无显著差异。

例 5,随机抽取某校男生 250 名,女生 240 ,进行体育达标考核,结果如下表 问体育达标水平是否与性别有关?表 11— 12 体育达标考核情况表达标未达标 合计男 15 20 35 女 13 18 31 合计283866解:检验步骤:1)建立假设: H 0 :体育达标水平与性别无关H 1 :体育达标水平与性别有关2 2 2(15 14.85)2 (20 20.15)2 (13 13.15) 2 14.85 20.15 13.153)统计决断: 首先确定自由度 df ,本例 df =1,查 df =1 的 2表,2(1,0.05) =3.84 ,故有 2< 2(1,0.05) ,因此应在 0.05 显著性水平上保留虚无假设,拒绝备择假设。

相关主题