第九章-对应分析
pp i r i cD c 1r i c
i 1
2
总 惯 量 jq 1 p ji p 1p ij p p ji p i jq 1 p jc j r D r 1c j r
其中
2
ricD c 1ricq j1
pij
pipj pj
称为第i 行轮廓 r i 到行轮廓中心c 的卡方( 2 )距离, 它可看作是一个加权的平方欧氏距离。同样,
❖ 将表9.1.3中的数据除以,得到对应矩阵,列于表
9.1.4中。表9.1.4给出的行密度和列密度向量为
0.185
r0.363, c0.305,0.173,0.231,0.160,0.131
0.218 0.186 0.235 0.117 0.068
RDr1P00..331029
pp2
p p p p
❖ 其中 D r d ia gp 1 ,p 2 , ,p p 。
p1q
p1
p2q p2
p pq
p p
列轮廓矩阵
p11 p1
p12 p2
C PDc1 c1,c2 ,
p21
,cq p1
p22 p2
p p1 p p2
p1
p2
❖ 其中 D c d ia gp 1 ,p 2 , ,p q。
和c 的元素有时称为行和列密度(masses)。
三、行、列轮廓
❖ 第 i 行轮廓:
ri p p ii1 ,p p ii2 , ,p p iiq n n ii1 ,n n ii2 , ,n n iiq
其各元素之和等于1 ,即 r i1 1 , i 1 ,2 , ,p 。 ❖ 第 j 列轮廓:
cj p p1 jj,p p2 jj, ,p ppjj n n1 jj,n n2 jj, ,n npjj
其各元素之和等于1 ,即1 cj 1 , j 1 ,2 , ,q 。
行轮廓矩阵
R
D
r
1
P
r1
r2
r
p
p11 p1 p21 p2
p p1
p12 p1 p22 p2
p1q
pq
p2q
pq
ppq
pq
rP1 PDc1 Dc1c1,c2,
p1
,cq
p2 q j1
pjcj
pq
可见,r 可以表示成各列轮廓的加权平均。类似地,
p
即 可以表示c 成1各P 行1 轮D 廓r的D 加r 1P 权 平i 均1p 。iri
c
例9.1.1
❖ 将由个人组成的样本按心理健康状况与社会经济状 况进行交叉分类,分类结果见表9.1.3。
0.327 0.249
0.170 0.209 0.245 0.294 0.327
两个马赛克图
对心理健康的每一种状况,A、B、C、D、E五个小 方块的宽度显示了行轮廓,0、1、2、3四种心理健 康状况的小方块高度显示了行密度。
对社会经济的每一种状况,0、1、2、3四个小方块 的高度显示了列轮廓,A、B、C、D、E五种社会经 济状况的小方块宽度显示了列密度。
§9.1 行轮廓和列轮廓
❖ 一、列联表 ❖ 二、对应矩阵 ❖ 三、行、列轮廓
一、列联表
❖ 其中, n i j 是第 i 行、第 j 列类别组合的频数,
q
i 1 ,2 , ,p ,j 1 ,2 , ,q ;n i n ij为第i 行的频数之 j1
p
和,i1,2, ,p; n j nij 为第 j 列的频数之和, i1
第9章 对应分析
❖ 对应分析(correspondence analysis)是用于寻求列 联表的行和列之间联系的一种低维图形表示法,它 可以从直觉上揭示出同一分类变量的各个类别之间 的差异,以及不同分类变量各个类别之间的对应关 系。
❖ 对应分析是由法国人Benzecri于1970年提出的,起 初在法国和日本最为流行,然后引入美国。
j1
❖ 称 Ppij nij n为对应矩阵。将对应矩阵表中的
最后一列用 r 表示,即
rP1p1,p2, ,pp
其中 1 1,1, ,1是元素均为1的 q 维向量,最后一行
用 c 表示,即
c 1 P p 1 ,p 2 , ,p q
❖ 其中1 1,1, ,1是元素均为1的 p 维向量,向量 r
❖ 在对应分析中,列联表的每一行对应(通常是二维) 图中的一点,每一列也对应同一图中的一点。本质 上,这些点都是列联表的各行各列向一个二维欧式 空间的投影,这种投影最大限度地保持了各行(或 各列)之间的关系。
第九章 对应分析
❖ §9.1 行轮廓和列轮廓 ❖ §9.2 独立性的检验和总惯性 ❖ §9.3 行、列轮廓的坐标 ❖ §9.4 对应分析图
0.174 0.180
0.234 0.213
0.161 0.149
0.118 0.149
0.221 0.154 0.242 0.201 0.183
列轮廓矩阵为
0.239 0.199 0.188 0.136 0.097
CPDc100..327211
0.366 0.226
0.367 0.201
0.366 0.204
似服从自由度为 p1q1的卡方分布。拒绝规则
为
若2 2p 1 ,q 1 ,则拒绝独立性的原假设
其中 2p1,q1是 2p1,q1的上分位点。
二、总惯量
2
2 pq
总 惯 量
pij pipj
n i1 j1
pipj
总惯量还可以行轮廓和列轮廓的形式表达如下:
2
总 惯 量 i p 1p ijq 1p ij p p i j p j
p
q
pq
j1,2, ,q; n ni nj nij为所有类别组
i1
j1
i1 j1
合的频数总和。
二、对应矩阵
❖ 这里, p ij n n ij,p ijq 1p ijjq 1n n ij,p ji p 1p iji p 1n n ij。
p
q
❖ 显然有 pi p j 1 。
i1
§9.2 独立性的检验和总惯量
❖ 一、行、列独立的检验 ❖ 二、总惯量
一、行、列独立的检验
❖ 在列联表中,检验行变量和列变量相互独立假设的 统计量为
2
pq
2n
pij pipj
i1 j1
pipj
当独立性的原假设为真,且样本容量 n 充分大,期
望频数 n p i p j 5 ,i 1 , 2 ,,p ,j 1 , 2 ,, q 时, 2 近