分类数据分析
赞成 反对
合计
男学生 45 105 150
女学生 42 78 120
合计 87 183 270
9 - 18
c 统计量
统计学
STATISTICS (第四版)
概述
c2检验(Chi-square test)是现代统计 学的创始人之一,英国人K . Pearson( 1857-1936)于1900年提出的一种具有广 泛用途的统计方法,因此又称为Pearson c2检验。可用于两个或多个率或构成比间 的比较,定性资料的关联度分析,拟合 优度检验等等。
一分公司
二分公司 三分公司 四分公司
赞成该方 案
反对该方 案
实际频数 期望频数 实际频数 期望频数
68
75
57
79
100*66.4%=66
150*66.4%=80
90*66.4%=6 0
110*66.4%=73
32
75
33
31
100*33.6%=34
150*33.6%=40
90*33.6%=3 0
110*33.6%=37
n
9 -9
统计学
STATISTICS (第四版)
列联表的结构
(r c 列联表的一般表示)
列(cj)
列(cj)
行(ri)
j =1
j =2
…
i =1
f11
f12
…
i=2
f21
f22
…
:
:
:
:
合计
c1
c2
…
fij 表示第 i 行第 j 列的观察频数
合计
r1 r2
:
n
9 - 10
统计学
STATISTICS (第四版)
统计学
STATISTICS (第四版)
期望频数的计算举例
举例:要检验各分公司对某项改革方案的 看法是否相同?
赞成该方 案
反对该方 案
实际频数 实际频数
一分公司 68 32
二分公司 三分公司 四分公司
75
57
79
45
33
31
9 - 26
统计学
STATISTICS (第四版)
期望频数的分布
(例题分析)
等价于检验三个公司的期望购买人数和实际购买人数是否9一- 2致8 。
统计学
STATISTICS (第四版)
拟合优度检验
(例题分析1-1)
【例9.1】 1912年4月15日,豪华巨轮泰坦尼克号与 冰山相撞沉没。当时船上共有共2208人,其中男 性1738人,女性470人。海难发生后,幸存者为 718人,其中男性374人,女性344人,以的显著 性水平( 0.05)检验存活状况与性别是否有关。
期望频数的分布
(例题分析)
A公司
B公司 其它公司
广告后 实际频数 102
82
16
购买人
数 期望频数 200×0.45 200×0.4 200×0.15
在广告宣传战之前,A公司、B公司和其它公司的市场占有率分 别为45%、40%和15%。上表给出了广告后对200个消费者购买意 愿的调查的结果,检验广告战前后各公司的市场占有率是否发生了 变化 ?
62.5% 17.8%
45 31.9% 37.5% 10.7% 28.6%
20.4%
63.35 13.6%
33 23.4% 36.7% 7.9% 21.4%
总百分比
四分公司
合计
79
66.4%
28.3%
71.8% 18.8%
31 22.0% 28.2% 7.4% 26.2%
— — 33.6%
— — 100%
fe — 每 一 类 别 的 期 望 频 数
9 - 24
统计学 拟合优度检验的期望频数的
STATISTICS (第四版)
计算
若可求出第i行第j列元素的期望概率pij, 则一个实际频数 fij 的期望频数eij ,是总频 数的个数 n 乘以该实际频数 fij 的期望概 率pij
eij n pij
9 - 25
5. 对分类数据的描述和分析通常使用列联表
9 -6
统计学
STATISTICS (第四版)
列联表的构造
9 -7
统计学
STATISTICS (第四版)
列联表
(contingency table)
1. 由两个以上的变量交叉分类的频数分布表
2. 行变量的类别用 r 表示, ri 表示第 i 个类别 3. 列变量的类别用 c 表示, cj 表示第 j 个类别 4. 每种组合的观察频数用 fij 表示 5. 表中列出了行变量和列变量的所有可能的组
赞成 反对
合计
男学生 45 105 150
女学生 42 78 120
合计 87 183 270
9 - 17
统计学
STATISTICS (第四版)
(3) 对于学生宿舍上网收费的新措施,男女学生的抽样调查结果 如下列联表所示,在男女生赞成的比例相同的前提下,男女 生赞成该措施的期望频数分别为: ( A ) A. 48和39 B . 102和81 C. 15和14 D. 25和19
9 - 29
统计学
STATISTICS (第四版)
拟合优度检验
(例题分析1-2)
分 析 : 在 这 次 海 难 中 , 幸 存 者 共 718 人 , 即 总 存 活 比 例 为
718/2208=0.325。若存活状况与性别无关,则男性存活
的期望人数为:0.3251738=565人,女性存活的期望人
列边缘分布(频数)
列观察值的合计数的分布 例如,四个分公司接受调查的人数分别为100人,120人,
90人,110人
2. 条件分布与条件频数
表中每个具体的观察值都是变量 X 条件下变量 Y 的 频数,或在变量 Y 条件下变量 X 的频数,称为条件 分布(频数)
9 - 13
统计学
STATISTICS (第四版)
fij— 列 联 表 中 第 i行 第 j列 类 别 的 实 际 频 数
e ij— 列 联 表 中 第 i行 第 j列 类 别 的 期 望 频 数
c2统计量可以看作是检验真实值与期望值的接近程度。
9 - 21
统计学
STATISTICS (第四版)
c 统计量
• 分布与自由度的关系
9 - 22
9.2 拟合优度检验 (goodness of TICS (第四版)
拟合优度检验
(例题分析1-3)
H0:生存状况与性别无关(观察
频数与期望频数一致)
H1:生存状况与性别相关(观察
频数与期望频数不一致) = 0.05 df = (2-1)= 1 临界值(s):
=0.1
0
3.8415 c2
统计量:
c2 c (fo fe)2 303
9 - 20
统计学
STATISTICS (第四版)
c 统计量
1. 用于检验列联表中变量间拟合优度和独立性 2. 检验统计量为:
c
c2
(fofe)2
~c2(C1)
f j1
e
fo— 实 际 频 数
fe— 期 望 频 数
或
c c r
2
c(fij e ij)2
~2((R 1 )(C 1 ))
e i 1j 1 ij
79 279
反对该方案 32
75
33
31 141
合计 100 120 90 110 420
9 - 11
统计学
STATISTICS (第四版)
列联表的分布
9 - 12
统计学
STATISTICS (第四版)
观察值的分布
1. 边缘频数
行边缘分布(频数)
行观察值的合计数的分布 例如,赞成改革方案的共有279人,反对改革方案的141人
j1
fe
决策:
在 = 0.05的水平上拒绝H0
结论:
有较充分的理由认为生存状况 与性别相关
9 - 31
统计学
STATISTICS (第四版)
拟合优度检验
(例题分析2-1)
【例】 一项统计结果声称:某市老年人口(年龄在 65岁以上)所占的比例为14.7%,该市老年人口 研究会为了检验该项统计是否可靠,随机抽选了 400名居民,发现其中有57人年龄在65岁以上。 调查结果是否支持该市老年人口比例为14.7%的 说法?(=0.05)。
合,所以称为列联表
6. 一个 R 行 C 列的列联表称为 R C 列联表
9 -8
统计学
STATISTICS (第四版)
列联表的结构
(2 2 列联表)
列(cj) 行 (ri)
i =1
i =2 合计
列( cj )
j =1
j =1
f11 f21 f11+ f21
f12 f22 f12+ f22
合计
f11+ f12 f21+ f22
观察值的分布
(图示)
条件频数
行边缘分布
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
75
33
31 141
合计 100 120 90 110 420
列边缘分布
9 - 14
统计学
STATISTICS (第四版)
百分比分布
(概念要点)
1. 条件频数反映了数据的分布,但不适合对比
9 -3
统计学
STATISTICS (第四版)