第9章分类数据分析
9.1
复习笔记
一、分类数据与χ2统计量
1.分类数据按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
分类数据和顺序数据都是只能归于某一类别的非数字型数据,它们是对事物进行分类的结果,其结果均表现为类别,用文字来表述,不过顺序数据的类别是有序的;数值型数据是按数字尺度测量的观测值,其结果表现为具体的数值。
分类数据是对事物进行分类的结果,其特征是,调查结果虽然用数值表示,但不同数值描述了调查对象的不同特征。
数值型数据可以转化为分类数据。
分类数据的结果是频数,χ2检验是对分类数据的频数进行分析的统计方法。
2.χ2统计量
χ2统计量可以对分类数据做拟合优度检验和独立性检验,可以用于测定两个分类变量之间的相关程度。
若用f o 表示观察值频数,用f e 表示期望值频数,则χ2统计量可以写为:
2
2()o e e f f f χ-=∑χ2检验:χ2检验是利用随机样本对总体分布与某种特定分布拟合程度的检验,也就是检验观察值与理论值之间的紧密程度。
χ2检验主要用于拟合优度检验和独立性检验。
(1)χ2统计量的特征
①χ2≥0,因为它是对平方值结果的汇总;
②χ2统计量的分布与自由度有关;
③χ2统计量描述了观察值与期望值的接近程度。
两者越接近,即f o-f e的绝对值越小,计算出的χ2值越小;反之,f o-f e的绝对值越大,计算出的χ2值也越大。
χ2检验正是通过对χ2的计算结果与χ2分布中的临界值进行比较,做出是否拒绝原假设的统计决策。
(2)χ2分布与自由度的密切关系
自由度越小,χ2的分布就越向左边倾斜;随着自由度的增加,χ2分布的偏斜程度趋于缓解,逐渐显露出对称性,随着自由度的继续增大,χ2分布将趋近于对称的正态分布。
(3)应用χ2检验统计量的注意事项
①各组的理论频数f e不得小于总频数n;
②总频数应较大,至少大于50;
③如果某组理论频数小于5,可将相邻的若干组合并,直至理论频数大于5为止;
④倘若有两个以上的单元,如果20%的单元期望频数f e小于5,则不能应用χ2检验。
二、拟合优度检验
拟合优度检验是利用样本信息对总体分布作出推断,检验总体是否服从理论分布(如均匀分布或二项分布)。
其方法是把样本分成K个互斥的类,然后根据要检验的理论分布算出每一类的期望频数,与实际的观察频数进行比较,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。
拟合优度检验的步骤为:
(1)确定原假设与备择假设,原假设H0表示总体服从设定的分布;备择假设H1,表示总体不服从设定的分布。
同时,确定显著性水平α;
(2)从要研究的总体中,随机抽取一个观察值样本;
(3)按照“原假设为真”这一假定,导出一组期望频数或理论频数。
通常这就是假定某概率分布适合于所研究的总体;
(4)对观察频数与理论频数进行比较,如果它们之间的差异很大,以致在确定的显著性水平下不能把它归之于随机波动,则拒绝原假设。
三、列联分析:独立性检验
拟合优度检验是对一个分类变量的检验,对于两个分类变量的分析,称为独立性检验,分析过程可以通过列联表的方式呈现,故又可称为列联分析。
1.列联表
列联表是由两个以上的变量进行交叉分类的频数分布表。
表中的行是态度变量,表中的列是单位变量。
将横向变量(行)的划分类别视为R,纵向变量(列)的划分类别视为C,则可以把每一个具体的列联表称为R×C列联表。
2.独立性检验
独立性检验就是分析列联表中行变量和列变量是否相互独立。
也就是检验行变量与列变量之间是否存在依赖关系。
独立性检验的特点在于其理论频数不是预先确定的,而需要从样本资料中获得。
四、列联表中的相关测量
可以用相关系数测定两个变量之间的相关程度,列联表中的变量通常是类别变量,它们表现研究对象的不同品质类别,这种分类数据之间的相关称为品质相关。
经常用到的品质相关系数有:φ相关系数、列联相关系数、V相关系数。
1.φ相关系数
(1)概念
φ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数,其计算公式为:
2/n
ϕχ=式中,
22()o e e
f f f χ-=∑n 为列联表中的总频数,也即样本量。
(2)特点
①φ系数适合2×2列联表,这是因为对于2×2列联表中的数据,φ系数取值为0~1。
②当φ=0,表明两变量相互独立;当φ=1,表明两变量完全相关。
注意:当列联表R×C 中的行数R 或列数C 大于2时,φ系数将随着R 或C 的变大而增大,且φ值没有上限。
这时用φ系数测定两个变量的相关程度就不够清晰,可以采用列联相关系数。
2.列联相关系数
(1)概念
列联相关系数又称列联系数,简称c 系数,主要用于列联表大于2×2的情况,其计算公式为:
2
2c n
χχ=+
当列联表中的两个变量相互独立时,系数c=0,但它不可能大于1。
(2)特点
列联系数可能的最大值依赖于列联表的行数和列数,且随着R 和C 的增大而增大。
计算简便,且对总体的分布没有任何要求,列联系数是一种适应性较广的测度值。
(3)局限性
根据不同的行和列计算的列联系数不便于比较,除非两个列联表中行数和列数一致。
3.V 相关系数
(1)概念
V 相关系数的计算公式为:
2min[(1),(1)]
V n R C χ=⨯--式中min[(R-1),(C-1)]表示取(R-1),(C-1)中较小的一个。
(2)特点
当两个变量相互独立时,V=0;当两个变量完全相关时,V=1,所以V 的取值在0~1之间。
如果列联表中有一维为2,即min[(R-1),(C-1)]=1,则V 值就等于φ值。
4.数值分析
对于同一个数据,系数φ,c,V 的结果不同。
对于不同的列联表,行数和列数的差异也会影响系数值。
因此,在对不同列联表变量之间的相关程度进行比较时,不同列联表中行与行、列与列的个数要相同,并且采用同一种系数,这样的系数值才具有可比性。
五、列联分析中应注意的问题
(1)一般来说,在列联表中变量的位置是任意的,既可以把变量X放在列的位置,也可以放在行的位置;
(2)如果变量X与Y存在因果关系,令X为自变量(原因),Y为因变量(结果),一般自变量X放在列的位置,条件百分表多按自变量的方向计算,这样可以更好地表现原因对结果的影响。
但如果因变量在样本内的分布不能代表其在总体内的分布,例如,为了满足分析的需要,抽样时扩大了因变量某项内容的样本量,这时仍以自变量的方向计算百分表就会歪曲实际情况。
在这种情况下,可以把计算百分表的方向变换一下,改为按因变量方向计算,这样就能得到自变量对因变量比较真实的反映。
9.2课后习题详解
一、思考题
1.简述列联表的构造与列联表的分布。
答:列联表是将两个以上的变量进行交叉分类的频数分布表。
列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如。