当前位置:文档之家› 第十章 卡方检验..

第十章 卡方检验..

第十章χ2检验χ检验的原理第一节2χ检验的假设一、2(一)分类相互排斥,互不包容2χ检验中的分类必须相互排斥,这样每一个观测值就会被划分到一个类别或另一个类别之中。

此外,分类必须互不包容,这样,就不会出现某一观测值同时划分到更多的类别当中去的情况。

(二)观测值相互独立各个被试的观测值之间彼此独立,这是最基本的一个假定。

如一个被试对某一品牌的选择对另一个被试的选择没有影响。

当同一被试被划分到一个以上的类别中时,常常会违反这个假定。

当讨论列联表时,独立性假定是指变量之间的相互独立。

这种情况下,这种变量的独立性正在被检测。

而观测值的独立性则是预先的一个假定。

(三)期望次数的大小每一个单元格中的期望次数应该至少在5以上。

一些更加谨慎的统计学家提出了更严格χ检验时,每一个单元格的期望次数至少不应低于的标准,当自由度等于1时,在进行210,这样才能保证检验的准确性。

另外,在许多分类研究中会存在这样一种情况,如自由度很大,有几个类别的理论次数虽然很小,但在给以接受的标准范围内,只有一个类别的理论次数低于1。

此时,一个简单的处理原则是设法使每一个类别的理论次数都不要低于1,分类中不超过20%的类别的理论次数可以小于5。

在理论次数较小的特殊的四格表中,应运用一个精确的多项检验来避免使χ检验。

用近似的2χ检验的类别二、2(一)配合度检验配合度检验主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近,这种2χ检验方法有时也称为无差假说检验。

当对连续数据的正态性进行检验时,这种检验又可称为正态吻合性检验。

(二)独立性检验独立性检验是用来检验两个或两个以上因素各种分类之间是否有关联或是否具有独立χ检验适用于探讨两个变量之间是否具有关联(非独立)或无关(独性的问题。

这种类型的2立),如果再加入另一个变量的影响,即探讨三个变量之间关系时,就必须使用多维列联表分析方法。

(三)同质性检验同质性检验的主要目的在于检定不同人群母总体在某一个变量的反应是否具有显著差异。

当用同质性检验检测双样本在单一变量的分布情形,如果两样本没有差异,就可以说两个母总体是同质的,反之,则说这两个母总体是异质的。

三、2χ检验的基本公式2χ是表示实测次数与理论次数(即期望次数)之间差异程度的指标,其基本数学定义是实测次数与期望次数之差的平方与期望次数的比率。

2χ检验就是检验实测次数与期望次数是否一致的统计方法。

基本公式如下:2)(∑-=ee f f f χ 其中 0f 表示实际观察次数,e f 表示某理论次数。

要求:≥e f 5四、小期望次数的连续性校正第一,单元格合并法。

若有一格或多个单元格的期望次数小于5时,在配合研究目的情况下,可适当调整变量的分类方式,将部分单元格予以合并。

第二,增加样本数。

如果研究者无法改变变量的分类方式,又想获得有效样本,最佳的方法是直接增加样本数来提高期望次数。

第三,去除样本法。

如果样本无法增加,次数偏低的类别又不具有分析与研究价值时,可以将该类被试除去,但研究的结论不能推论到这些被除去的母总体中。

第四,使用校正公式。

在2×2的列联表检验中,若单元格的期望次数低于10但高于5,可使用耶茨校正(Yates ’ correction for continuity)公式来加以校正。

若期望次数低于5时,或样本总人数低于20时,则应使用费舍精确概率检验法(Fisher ’s exact probability test)。

当单元格内容牵涉到重复测量设计时(例如前后测设计),则可使用麦内玛检验(McNemar test)。

第二节 配合度检验配合度检验(goodness of fit test )主要用于检验单一变量的实际观察次数分布与某理论次数是否有差别。

由于它检验的内容仅涉及一个因素多项分类的计数资料,故可以说是一种单因素检验(One-way test)。

一、配合度检验的一般问题1.建立假设0H :e f f =0 a H :e f f =0在2χ检验中,理论(或期望)次数的确定就取决于这种比例的假设。

2χ的临界值是在0H 成立的条件下导出理论分布,并由2χ公式计算出来的。

若实际计算出的2χ值大于理论上的临界值()205.0df χ,即2χ>()205.0df χ则说在05.0=α的显著水平上拒绝0H 。

2.自由度的确定原则自由度确定的一般原则是:以相互独立的类别数k (或C )减去所受的限制数M ,即M k df -=在各种适合性检验中,如果理论次数只受到总和的限制,即受∑∑=e f f的限制,则自由度为1-=k df在正态分布的适合性检验,因其除了受∑∑=e f f的限制以外,还受理论分布的均数和标准差两个未知参数的限制,即受到三个条件的限制,其自由度为3-=k df3.理论次数的计算规则一是数据分布有其理论概率为依据,这时的理论次数()e f 等于总次数乘以某种属性出现的概率(p ),即Np f e =理论次数的计算,一般是根据某种理论,按一定的概率通过样本即实际观察次数计算。

某种理论有经验概率,也有理论概率,如二项分布、正态分布等理论概率。

二、配合度检验的应用 (一)检验无差假说这里讲的无差假说,是指各项分类的实计数之间没有差异,也就是假设,各项分类之间的几会相等,或概率相等,因此理论次数完全按概率相等的条件计算。

即:理论次数=总数×例10-1:随机抽取60名学生,询问他们在高中是否需要文理分科,赞成分科的39人,反对分科的21人,问他们对分科的意见是否有显著差异?解:1)建立假设(赞成与反对的人数相等)分类项数1f f H e =00:(赞成与反对的人数不相等)2)计算统计量302160=⨯=e f 30)3021(30)3039()(2222-+-=-=∑fff eeχ 4.530)9(922=-+=3)进行统计决策 查2χ表,当1=df 时,,,63.684.3201.0205.0==χχ因为4.52=χ,201.02205.0χχχ<<,所以,05.001.0<<p 。

达到显著性水平,拒绝原假设。

说明两种态度有显著差异。

例10-2:某项民意测验,答案有同意、不置可否、不同意三种。

调查了48人,结果同意的24人,不置可否的12人,不同意的12人。

问持这三种意见的人数是否有显著不同?解:此题为检验无差假说,已知分类的项数为三,故各项分类假设实计数相等。

所以1)建立假设ffH e=:ffH e≠1:2)计算统计量616)1612(16)1612(16)1624(2222=-+-+-=χ 3)进行统计决策 查2χ表,当213=-=df 时,99.5205.0=χ,因为205.026χχ〉=,所以05.0<p 。

达到显著性水平,拒绝原假设。

说明三种态度有显著差异。

(二)检验假设分布的概率假设某因素各项分类的次数分布为正态,检验实计数与理论上期望的结果之间是否有差异。

因为已假定所观察的资料是按正态分布的,故其理论次数的计算应按正态分布概率,分f f H e ≠01:163148,48,31=⨯===feN p别计算各项分类的理论次数。

具体方法是先按正态分布理论计算各项分类应有的概率再乘以总数,便得到各项分类的理论次数。

如果不是事先假定所观察的资料为正态分布而是其他分布,如二项分布、泊松分布等,其概率应按各所假定的分布计算。

事先假定的分布不是理论分布而是经验分布,亦可按此经验分布计算概率,在乘以总数便可得到理论次数,从而进一步检验假设分布与实计数的分布之间,亦即实计数与理论次数之间差异是否显著。

例10-3:某班有学生50人,体检结果按一定标准划分为甲乙丙三类,其中甲类16人,乙类24人,丙类10人,问该班学生的身体状况是否符合正态分布?解:该题中的理论次数应按假设的正态分布概率计算。

按正态分布,就可以认为σ3± 包括了全体,各等级所占的横坐标应该相同(σσ236=÷),故各类人数应占的比率为:甲级:σσ1~3之间,曲线下的面积应为1587.03413.050.0=- 乙级:σσ1~1-之间,曲线下的面积应为6826.023413.0=⨯ 丙级:σσ3~1--之间,曲线下的面积应为1587.03413.050.0=- 各等级的理论次数为:8501587.0≈⨯=甲e f1)建立假设H 0:学生的身体状况符合正态分布 H 1:学生的身体状况不符合正态分布 2)计算统计量44.11881034342488162222=-+-+-=)()()(χ3)进行统计决策 当213=-=df 时,6.10205.0=χ,χχ205.02>,所以达到显著性水平,拒绝原假设。

说明学生身体状况不符合正态分布。

例10-4:根据以往的经验,某校长认为高中生升学的男女比例为2 :1,今年的升学情况是男生85人,女生35人,问今年升学的男女比例是否符合该校长的经验?解:此题是假设男女生升学的人数分布与校长的经验分布相同,故理论次数应按经验分布的概率计算34506826.0=⨯=fe 乙8501587.0≈⨯=fe 丙理论次数为:8032)3585(=⨯+=fe 男40313585=⨯+=)(女fe1) 建立假设H 0:男女升学比例符合校长经验 H 1:男女升学比例不符合校长经验 2)计算统计量94.04040-358080-85222=+=)()(χ3)进行统计决策 当12-=df 时,84.3205.0=χ,因为χχ205.02<,故差异不显著。

接受原假设。

说明男女升学比例符合校长经验。

三、连续变量分布的吻合性检验(自学)对于连续性数据总体分布的检验,一种方法是将测量数据整理成次数分布表,画出次数分布曲线图,根据次数分布曲线,判断选择恰当的理论分布。

有时可选择某一直线或曲线的理论分布函数方程式计算理论次数,然后把实际分组次数(0f )和理论次数(e f )代入检验的基本公式,计算2χ 值查2χ表,确定其差异是否显著。

若差异显著,说明实际次数分布于所选择的理论次数分布不吻合,这时可另选择理论分布函数,再次比较,直至吻合,这个理论分布函数就是该实际测量的次数分布函数。

若差异不显著则说明所选的理论次数分布于实际次数分布吻合。

对连续随机变量分布的吻合性检验,关键的步骤是计算理论次数与确定自由度。

理论次数的计算是把实际次数分布的统计量代入所选的理论分布函数方程,计算各分组区间的理论频率,然后乘以总数得到各分组区间的理论次数。

确定自由度时是将分组的数目减去计算理论次数是所用统计量的数目。

下面以正态分布吻合性检验为例,说明理论次数的计算与自由度的确定。

例10-5:表10-1所列资料是552名中学生的身高次数分布,问这些学生的身高分布是否符合正态分布。

相关主题