当前位置：文档之家› 贾俊平《统计学》复习笔记课后习题详解及典型题详解第9章~第10章【圣才出品】

贾俊平《统计学》复习笔记课后习题详解及典型题详解第9章~第10章【圣才出品】

第9章分类数据分析
9.1
复习笔记
一、分类数据与χ2统计量
1．分类数据按照所采用的计量尺度不同，可以将统计数据分为分类数据、顺序数据和数值型数据。

分类数据和顺序数据都是只能归于某一类别的非数字型数据，它们是对事物进行分类的结果，其结果均表现为类别，用文字来表述，不过顺序数据的类别是有序的；数值型数据是按数字尺度测量的观测值，其结果表现为具体的数值。

分类数据是对事物进行分类的结果，其特征是，调查结果虽然用数值表示，但不同数值描述了调查对象的不同特征。

数值型数据可以转化为分类数据。

分类数据的结果是频数，χ2检验是对分类数据的频数进行分析的统计方法。

2．χ2统计量
χ2统计量可以对分类数据做拟合优度检验和独立性检验，可以用于测定两个分类变量之间的相关程度。

若用f o 表示观察值频数，用f e 表示期望值频数，则χ2统计量可以写为：
2
2()o e e f f f χ-=∑χ2检验：χ2检验是利用随机样本对总体分布与某种特定分布拟合程度的检验，也就是检验观察值与理论值之间的紧密程度。

χ2检验主要用于拟合优度检验和独立性检验。

（1）χ2统计量的特征
①χ2≥0，因为它是对平方值结果的汇总；
②χ2统计量的分布与自由度有关；
③χ2统计量描述了观察值与期望值的接近程度。

两者越接近，即f o－f e的绝对值越小，计算出的χ2值越小；反之，f o－f e的绝对值越大，计算出的χ2值也越大。

χ2检验正是通过对χ2的计算结果与χ2分布中的临界值进行比较，做出是否拒绝原假设的统计决策。

（2）χ2分布与自由度的密切关系
自由度越小，χ2的分布就越向左边倾斜；随着自由度的增加，χ2分布的偏斜程度趋于缓解，逐渐显露出对称性，随着自由度的继续增大，χ2分布将趋近于对称的正态分布。

（3）应用χ2检验统计量的注意事项
①各组的理论频数f e不得小于总频数n；
②总频数应较大，至少大于50；
③如果某组理论频数小于5，可将相邻的若干组合并，直至理论频数大于5为止；
④倘若有两个以上的单元，如果20%的单元期望频数f e小于5，则不能应用χ2检验。

二、拟合优度检验
拟合优度检验是利用样本信息对总体分布作出推断，检验总体是否服从理论分布（如均匀分布或二项分布）。

其方法是把样本分成K个互斥的类，然后根据要检验的理论分布算出每一类的期望频数，与实际的观察频数进行比较，判断期望频数与观察频数是否有显著差异，从而达到对分类变量进行分析的目的。

拟合优度检验的步骤为：
（1）确定原假设与备择假设，原假设H0表示总体服从设定的分布；备择假设H1，表示总体不服从设定的分布。

同时，确定显著性水平α；
（2）从要研究的总体中，随机抽取一个观察值样本；
（3）按照“原假设为真”这一假定，导出一组期望频数或理论频数。

通常这就是假定某概率分布适合于所研究的总体；
（4）对观察频数与理论频数进行比较，如果它们之间的差异很大，以致在确定的显著性水平下不能把它归之于随机波动，则拒绝原假设。

三、列联分析：独立性检验
拟合优度检验是对一个分类变量的检验，对于两个分类变量的分析，称为独立性检验，分析过程可以通过列联表的方式呈现，故又可称为列联分析。

1．列联表
列联表是由两个以上的变量进行交叉分类的频数分布表。

表中的行是态度变量，表中的列是单位变量。

将横向变量（行）的划分类别视为R，纵向变量（列）的划分类别视为C，则可以把每一个具体的列联表称为R×C列联表。

2．独立性检验
独立性检验就是分析列联表中行变量和列变量是否相互独立。

也就是检验行变量与列变量之间是否存在依赖关系。

独立性检验的特点在于其理论频数不是预先确定的，而需要从样本资料中获得。

四、列联表中的相关测量
可以用相关系数测定两个变量之间的相关程度，列联表中的变量通常是类别变量，它们表现研究对象的不同品质类别，这种分类数据之间的相关称为品质相关。

经常用到的品质相关系数有：φ相关系数、列联相关系数、V相关系数。

1．φ相关系数
（1）概念
φ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数，其计算公式为：
2/n
ϕχ=式中，
22()o e e
f f f χ-=∑n 为列联表中的总频数，也即样本量。

（2）特点
①φ系数适合2×2列联表，这是因为对于2×2列联表中的数据，φ系数取值为0～1。

②当φ＝0，表明两变量相互独立；当φ＝1，表明两变量完全相关。

注意：当列联表R×C 中的行数R 或列数C 大于2时，φ系数将随着R 或C 的变大而增大，且φ值没有上限。

这时用φ系数测定两个变量的相关程度就不够清晰，可以采用列联相关系数。

2．列联相关系数
（1）概念
列联相关系数又称列联系数，简称c 系数，主要用于列联表大于2×2的情况，其计算公式为：
2
2c n
χχ=+
当列联表中的两个变量相互独立时，系数c＝0，但它不可能大于1。

（2）特点
列联系数可能的最大值依赖于列联表的行数和列数，且随着R 和C 的增大而增大。

计算简便，且对总体的分布没有任何要求，列联系数是一种适应性较广的测度值。

（3）局限性
根据不同的行和列计算的列联系数不便于比较，除非两个列联表中行数和列数一致。

3．V 相关系数
（1）概念
V 相关系数的计算公式为：
2min[(1),(1)]
V n R C χ=⨯--式中min[（R－1），（C－1）]表示取（R－1），（C－1）中较小的一个。

（2）特点
当两个变量相互独立时，V＝0；当两个变量完全相关时，V＝1，所以V 的取值在0～1之间。

如果列联表中有一维为2，即min[（R－1），（C－1）]＝1，则V 值就等于φ值。

4．数值分析
对于同一个数据，系数φ，c，V 的结果不同。

对于不同的列联表，行数和列数的差异也会影响系数值。

因此，在对不同列联表变量之间的相关程度进行比较时，不同列联表中行与行、列与列的个数要相同，并且采用同一种系数，这样的系数值才具有可比性。

五、列联分析中应注意的问题
（1）一般来说，在列联表中变量的位置是任意的，既可以把变量X放在列的位置，也可以放在行的位置；
（2）如果变量X与Y存在因果关系，令X为自变量（原因），Y为因变量（结果），一般自变量X放在列的位置，条件百分表多按自变量的方向计算，这样可以更好地表现原因对结果的影响。

但如果因变量在样本内的分布不能代表其在总体内的分布，例如，为了满足分析的需要，抽样时扩大了因变量某项内容的样本量，这时仍以自变量的方向计算百分表就会歪曲实际情况。

在这种情况下，可以把计算百分表的方向变换一下，改为按因变量方向计算，这样就能得到自变量对因变量比较真实的反映。

9.2课后习题详解
一、思考题
1．简述列联表的构造与列联表的分布。

答：列联表是将两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看，一个是观察值的分布，又称为条件分布，每个具体的观察值就是条件频数；一个是期望值的分布。

2．用一张报纸、一份杂志或你周围的例子构造一个列联表，说明这个调查中两个分类变量的关系，并提出进行检验的问题。

答：对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验，欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品，整理成为如。

e商务文档

贾俊平《统计学》复习笔记课后习题详解及典型题详解第9章~第10章【圣才出品】

相关文档推荐：

e商务文档

贾俊平《统计学》复习笔记课后习题详解及典型题详解 第9章~第10章【圣才出品】

相关文档推荐：

贾俊平《统计学》复习笔记课后习题详解及典型题详解第9章~第10章【圣才出品】