当前位置:文档之家› 多元统计分析——对应分析

多元统计分析——对应分析

a 1
p .p aiap i. p .a
p i.
p .p aja pj. p .a
pj.
n
piapi.p.apjapa.p.j
a1 p.a pi. p.j p.a
n
zia z ja
a 1
令Z为zij所组成的矩阵,则
BZZ
令Z为zij所组成的矩阵,则 BZ Z 因此将矩阵变换成矩阵Z,则很容易求出A和B存
变量的叉积矩阵
样品的叉积矩阵
R (* X ) X * (p p ) QX *(X *) (n n )
显而易见,变量和样品的叉积矩阵的阶数不同, 一般来说,他们的非零特征根也不一样,那么能否将 观测值做变换。
X Z
ZZ和ZZ具有相同的特征根。
(一)规格化矩阵
x11 x12
X
x21
x22
个样品的协方a 差ij:ap 1 pa.pap i.i
p.i pa.papj.j
p.jpa.
ap 1 pa.pap i.i p.i
pa. pa.papj.j p.j
pa.
p
paipa.p.i pajpa.p.j
a1 pa. p.i pa. p.j
例 某地环境检测部门对该地所属8个 地区的大气污染状况进行了系统的的检测,每 天4次同时在各个地区抽取大气样品,则定其 中的氯、硫化氢、二氧化硫、碳4、环氧氯丙 烷、环已烷6种气体的浓度。有资料如下:
0.056 0.084 0.031 0.038 0.0081 0.022 0.049 0.055 0.1 0.11 0.022 0.0073 0.038 0.13 0.079 0.17 0.058 0.043 0.034 0.095 0.058 0.16 0.2 0.029 0.084 0.066 0.029 0.32 0.012 0.041 0.064 0.072 0.1 0.21 0.028 1.38 0.048 0.089 0.062 0.26 0.038 0.036 0.069 0.087 0.027 0.05 0.089 0.021
第7章 对 应 分 析
Correspondence Analysis
7.1列联表及列联表分析 7.2对应分析
7.1列联表及列联表分析
一、列联表及其作用 1.列联表是观测数据按两个或更多属性变量
(定类尺度或定序尺度)分类时所列出的频 数表。 2.列联表用于考察两个(或多个)分类变量 的统计学关联。如行变量与列变量之间的关 联性。
列联表检验的零假设是两变量 X和Y 相互独立,计 算一个卡方统计量,与列联表中频数取值和零假设 下期望取值之差有关,当卡方 很大时否定零假设。
B
6
例 吸烟与慢性支气管炎调查表
为了探讨吸烟与慢性支气管 炎有无关系,调查了339人, 情况如表所示:
B A
患慢性 支气管 炎
未患慢 性支气 管炎
设想有两个随机变量A,B: 吸 43
总惯量
由矩阵D(R)定义的n 个点与其重心的欧氏 距离之和称为行轮廓矩阵N(R) 的总惯量。
记为I I .
同时,可证明:
II
IJ
1 2
n
B
19
同理:

p 1 j p .j
p p 2 .jj p p . n j j x x 1 .j j
x 2 j x .j
x x . n j j j 1 ,2 ,3 , ,p
为列轮廓。
列轮廓矩阵为:
p11/ p.1 N(Q)p21/ p.1
pn1/ p.1
p12/ p.2 p22/ p.2
pn2/ p.2
p1p/ p.p p2p/ p.p
pnp/ p.p
E(pp.ijj)i n1pp.ijj.p.j pi.
因为原始变量的数量等级可能不同,所以为了
尽量减少各变量尺度差异,将列轮廓中的各行元 素均除以其期望的平方根。得矩阵D(Q)
p2
p
pnp
n
p
我们可以把pij解释成概率,因为所有的元素之和为1。
行和pi.: j p1pij
列和 p.j : i n1pij
Q
pij
pi.
xpij /x.. pij
xij /x..
p
xij /x..
xij xi.
j1
j1
p p i i 1 . p p i i2 . p p i i. p x x i i 1 . x x i i2 . x x i i. p i 1 ,2 ,3 , ,n 称为行轮廓。即把第i行表示成在p维欧氏空间中的一个点
p
zai zaj a 1
zaipai pap .p a..ip.i xai xax .x a..ix.i
令Z为zij所组成的矩阵,则 AZZ
利用列轮廓矩阵,可得第i个变量与第j 个变量的协方差:
bijan 1 p.apia pi.
pi. p.apjp aj.
pj.p.a
n
p11/p.1 p1. D(Q)p21/p.1 p2.
pn1/p.1 pn.
p12/p.2 p1. p22/p.2 p2.
pn2/p.2 pn.
p1p/p.p p1. p2p/p.p p2.
pnp/p.p pn.
E(p.jpijpi.)i n1p.jpijpi..p.j pi.
利用行轮郭矩阵,可得第i个样品与第j
B
3
列联表
B1 B2
Bj
A1 n11 n12 … n1j

A2 n21 n22
n2j
Bp n1p n1. n2p n2.
Ai ni1 ni2
nij
nip ni.
An nn1 nn2
n.1
n.2
nnj n.j
B
nnp nn. n.p n
4
B1 A1 p11 A2 p21
频率意义上的列联表
B2
Bj
Bp
矩阵D(R)是消除了变量B的各个状态概率影响的P 维空间n个点的相对坐标。 则这n个点的重心,也有p维坐标,设其第j个分量为:
E (p i.p ip j.j) i n 1 p i.p ip j.j.p i.1 p .jp .jp .j,j 1 ,2 , ,p
N个点的重心为: ( P.1, P.2 P.p)
Phi Coefficient -0.148
Contingency Coefficient 0.147
Cramer's V -0.148
Sample Size = 339
B
8
列联表中列出了表格单元频数和在零假设下 的期望频数,可以看出,吸烟人中患病的数
目比期望数目大。检验的结果只要看后面的 统计量部分的Chi-Square一行,其值为 7.469,p值为0.006,所以应否定零假设,吸 烟与患慢性支气管炎是不独立的。
7.925 0.005 Chi-Square
Continuity Adj. Chi-Square
1
6.674
0.010
Mantel-Haenszel Chi-Square
1
7.447 0.006
Fisher's Exact Test (Left) 4.09E-03
(Right) 0.998
(2-Tail) 6.86E-03
第j个变量的期望为:
E (p pii.j)i n1p pii.j.pi.p.j,j1 ,2,,p
p11/p1. p.1 D(R)p21/p2. p.1
pn1/pn. p.1
p12/p1. p.2 p1p/p1. p.p p22/p2. p.2 p2p/p2. p.p
pn2/pn. p.2 pnp/pn. p.p
B
2
一般,若总体中的个体可按两个属性A与 B分类,A有n类A1,A2,…,An,B有p类 B1,B2,…,Bp, 属于Ai和Bj的个体数目为 nij(i=1,2, …,n;j= 1,2, …,p),nij称为 频数,则可形成n×p的二维列联表,简 称n×p表。
若所考虑的属性多于两个,也可按类似 的方式作出列联表,称为多维列联表。
xn1
xn2
x1p
x2
p
xi.为行和x., j为列和
x 为总和
xnp
n
p
..
x11 x12 x21 x22
xn1 xn2
x1p x1.
x2
p
x2.
xnp
xn.
x.1
x.2 x.p x..
pijxij/x..
p11
X
p21

pn1
p12 p22 pn2
p1p
设原始数据矩阵为:
x11 x12
X x21 x22
xn1
xn2
x1p
x2
p
xnp
n
p
由于因子分析都是基于协方差矩阵或相关系 数矩阵完成的,所以必须从变量和样品的协 方差矩阵入手来进行分析。
x11x1 x12x2 x1p xp
X* x21x1 x22x2 x2p xp
xn1x1 xn2 x2 xnpxpnp
行轮廓矩阵为:
p11/ p1. N(R)p21/ p2.
p12/ p1. p1p/ p1.
p22/ p2. p2p/ p2.
pn1/ pn.
pn2/ pn.
pnp/
pn.
由此,我们可以将属性变量A的n个取值可 以用P维空间的n个点来表示。n个点的坐 标即为该行轮廓矩阵。
但是,因为原始变量的数量等级可能不同,所以 为了尽量减少各变量尺度差异,将行轮廓中的各列 元素均除以其期望的平方根。得矩阵D(R)
162
A:1表示吸烟,
相关主题