第9章 分类数据分析
n
9 -9
统计学
STATISTICS (第四版)
列联表的结构
(r c 列联表的一般表示)
列(cj)
列(cj)
行(ri)
j =1
j =2
…
i =1
f11
f12…i=2f源自1f22…:
:
:
:
合计
c1
c2
…
fij 表示第 i 行第 j 列的观察频数
合计
r1 r2
:
n
9 - 10
统计学
STATISTICS (第四版)
列联表
(例题分析)
【例】一个集团公司在四个不同的地区设有分公司,现该集 团公司欲进行一项改革,此项改革可能涉及到各分公司的利 益,故采用抽样调查方式,从四个分公司共抽取420个样本 单位(人),了解职工对此项改革的看法,调查结果如下表
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
等价于检验三个公司的期望购买人数和实际购买人数是否9一- 2致8 。
统计学
STATISTICS (第四版)
拟合优度检验
(例题分析1-1)
【例9.1】 1912年4月15日,豪华巨轮泰坦尼克号与 冰山相撞沉没。当时船上共有共2208人,其中男 性1738人,女性470人。海难发生后,幸存者为 718人,其中男性374人,女性344人,以的显著 性水平( 0.05)检验存活状况与性别是否有关。
赞成 反对
合计
男学生 45 105 150
女学生 42 78 120
合计 87 183 270
9 - 18
c 统计量
统计学
STATISTICS (第四版)
概述
c2检验(Chi-square test)是现代统计 学的创始人之一,英国人K . Pearson( 1857-1936)于1900年提出的一种具有广 泛用途的统计方法,因此又称为Pearson c2检验。可用于两个或多个率或构成比间 的比较,定性资料的关联度分析,拟合 优度检验等等。
列边缘分布(频数)
列观察值的合计数的分布 例如,四个分公司接受调查的人数分别为100人,120人,
90人,110人
2. 条件分布与条件频数
表中每个具体的观察值都是变量 X 条件下变量 Y 的 频数,或在变量 Y 条件下变量 X 的频数,称为条件 分布(频数)
9 - 13
统计学
STATISTICS (第四版)
在全部420个样本中,赞成改革方案的人数为279,占66.4%;反对的人数占 33.6%。在各分公司对改革方案看法相同的前提下,各分公司赞成(反对) 这项改革不同态度的期望频数为分公司总样本数*66.4%(33.6%)。9等- 价27于 检验各分公司赞成方案的实际频数与期望频数是否一致。
统计学
STATISTICS (第四版)
统计学
STATISTICS (第四版)
c 统计量
拟合优度检验:
1. 用于检验一个分类变量中各类别的期望频数和观察频数 是否有显著差异。
2. 其实际为假设检验
3. 在原假设为观察频数和实际频数一致的前提下,有如下
检验统计量:
c 2 c ( fo fe )2
j 1
fe
其自由度为C 1 式中:fo —每一类别的观察频数
观察值的分布
(图示)
条件频数
行边缘分布
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
75
33
31 141
合计 100 120 90 110 420
列边缘分布
9 - 14
统计学
STATISTICS (第四版)
百分比分布
(概念要点)
1. 条件频数反映了数据的分布,但不适合对比
9 - 16
统计学
STATISTICS (第四版)
练 习 (1)
(1) 列联分析是利用列联表来研究: ( A ) A. 两个分类变量的关系 B . 两个数值型变量的关系 C. 一个分类变量和一个数值型变量的关系 D. 两个数值型变量的分布
(2) 以下列联表中,最右边一列称为:( B ) A. 列边缘频数; B. 行边缘频数; C. 条件频数; D. 总频数
合,所以称为列联表
6. 一个 R 行 C 列的列联表称为 R C 列联表
9 -8
统计学
STATISTICS (第四版)
列联表的结构
(2 2 列联表)
列(cj) 行 (ri)
i =1
i =2 合计
列( cj )
j =1
j =1
f11 f21 f11+ f21
f12 f22 f12+ f22
合计
f11+ f12 f21+ f22
62.5% 17.8%
45 31.9% 37.5% 10.7% 28.6%
20.4%
63.35 13.6%
33 23.4% 36.7% 7.9% 21.4%
总百分比
四分公司
合计
79
66.4%
28.3%
71.8% 18.8%
31 22.0% 28.2% 7.4% 26.2%
— — 33.6%
— — 100%
数为: 0.325470=153人,若男女性期望的存活人数和
实际的存活人数非常接近,则可以认为存活率与性别无关
,反之,则认为存状况与性别相关。因此可以利用c2统计
量来检验。
男
女
合计
实际生存 人数
374
344
718
总人数
1738
470
2208
期望生存 人数
1738×0.325 470×0.325
9 - 30
79 279
反对该方案 32
75
33
31 141
合计 100 120 90 110 420
9 - 11
统计学
STATISTICS (第四版)
列联表的分布
9 - 12
统计学
STATISTICS (第四版)
观察值的分布
1. 边缘频数
行边缘分布(频数)
行观察值的合计数的分布 例如,赞成改革方案的共有279人,反对改革方案的141人
9 -3
统计学
STATISTICS (第四版)
学习目标
1. 解释列联表 2. 进行 c2 检验
拟合优度检验 独立性检验 3. 测度列联表中的相关性
9 -4
9.1 分类数据
9.1.1 分类数据 补充:列联表的构造
列联表的分布 9.1.2 c2统计量
统计学
STATISTICS (第四版)
分类数据
赞成 反对
合计
男学生 45 105 150
女学生 42 78 120
合计 87 183 270
9 - 17
统计学
STATISTICS (第四版)
(3) 对于学生宿舍上网收费的新措施,男女学生的抽样调查结果 如下列联表所示,在男女生赞成的比例相同的前提下,男女 生赞成该措施的期望频数分别为: ( A ) A. 48和39 B . 102和81 C. 15和14 D. 25和19
二分公司 三分公司 四分公司
赞成该方 案
实际频数 期望频数
68
75
57
79
100*66.4%=66 150*66.4%=80 90*66.4%=60 110*66.4%=73
反对该方 案
实际频数 期望频数
32
75
33
31
100*33.6%=34 150*33.6%=40 90*33.6%=30 110*33.6%=37
统计学
STATISTICS (第四版)
第 9 章分类数据分析
9 -1
统计学
STATISTICS (第四版)
概述
第七、八章介绍的估计和检验方法仅主 要针对数值型变量。而列联分析是针对分 类变量进行分析的方法。
9 -2
统计学
STATISTICS (第四版)
第 9 章 分类数据分析
9.1 分类数据与c2统计量 9.2 拟合优度 检验 9.3 列联分析:独立性检验 9.4 列联表中的相关测量 9.5 列联分析中应注意的问题
fe —每一类别的期望频数 9 - 24
统计学 拟合优度检验的期望频数的
STATISTICS (第四版)
计算
若可求出第i行第j列元素的期望概率pij, 则一个实际频数 fij 的期望频数eij ,是总频 数的个数 n 乘以该实际频数 fij 的期望概 率pij
eij n pij
9 - 25
统计学
1. 分类变量的取值表现为类别
例如:性别 (男, 女)
2. 各类别可用符号或数字代码来测度
例如:性别 (男用1表示, 女用0表示)
3. 顺序数据也可以看作分类数据
原料的质量等级:一等品、二等品、三等品
4. 数值型数据也可以转化为分类数据
数学期末考试成绩是一个数值型数据,可以根据分数段 将成绩为“优秀”、“良好”、“及格”和“不及格” 几个类别
STATISTICS (第四版)
期望频数的计算举例
举例:要检验各分公司对某项改革方案的 看法是否相同?
赞成该方 案
反对该方 案
实际频数 实际频数
一分公司 68 32
二分公司 三分公司 四分公司
75
57
79
45
33
31
9 - 26
统计学
STATISTICS (第四版)
期望频数的分布
(例题分析)