应用多元统计分析 习题解答
应用多元统计分析
第六章部分习题解答
第六章 聚类分析
6-1 证明下列结论:
(1) 两个距离的和所组成的函数仍是距离;
(2) 一个正常数乘上一个距离所组成的函数
仍是距离;
(3)设d为一个距离,c>0为常数,则 d * d
仍是一个距离;
d c
(4) 两个距离的乘积所组成的函数不一定是
距离;
证明 :(1)设d(1)和d(2)为距,离 令dd(1) d(2).
D r ( L )k m D p ( L 1 ) i , k D q ( L n 1 ) k ) D (p ( L 1 ) q D ( L )( k p ,q )
设第L+1步从类间距离矩阵 D(L) Di(L j) 出发,
20
第六章 聚类分析
因Dr(Lk) Dp (L q1) DL (kp,q)
D(0)
D(1)
0 4 6
0 9
0
16
7 3
10 5
0 8
0
① 合并{X(1),X(4)}=CL4,并类距离 D1=1.
0
D(2)
92 32
65
2
0 52 136
2
0 100
2
X(2) X(3) 0CX(L54)
14
第六章 聚类分析
② 合并{X(2),X(5)}=CL3,并类距离 D2=3.
(k)
X ( p) )'(X
( p)
X
(q) )
n p nq nr2
(X
(k)
X
(q) )'(X
( p)
X
(q) )
np nr
D
2 pk
nq nr
Dq2k
n p nq nr2
D
2 pq
27
第六章 聚类分析
解二:因样品间的距离定义为欧氏距离,利用
X(r)
1 nr
npX(p)
nqX(q)
Dr2k ( X (k) X (r) )'( X (k) X (r) )
di*kdk*,j对一i,切 k, j.
故d*=ad是一个距离. (3) 设d为一个距离,c>0为常数,显然有
①
di*j
dij dij c
0,且仅当 X(i)
X( j)时di*j
0;
②
di*j
dij dij c
dji dji c
d*ji,对一切 i, j;
4
第六章 聚类分析
③
d
* ij
d ij dij c
X1
X4
X2
X5
X3
0
1
2
3
4
5
6
7
8
Average Distance Between Clusters
16
第六章 聚类分析
6-4 利用距离平方的递推公式
D k 2 r p D p 2 kq D q 2 kD p 2 q|D p 2 k D q 2|k
来证明当γ=0,αp≥0,αq≥0,αp+αq+β≥1时,系统聚类中的类 平均法、可变类平均法、可变法、Ward法的单调性.
1.10.250.85
23
第六章 聚类分析
当把A与{B,C}并为一类时,并类距离
D 20 .8 5 0 .92 1 2D 1
故重心法法不具有单调性。
A
并类过程如下:
B
C
D(1) 0
1.1 0
110..01C B AD(2) 0
0.8 0
5GAr
D(3) 0
24
第六章 聚类分析
6-7 试推导重心法的距离递推公式(6.3.2);
pq(1)nnrp
(1)nq
nr
11
故可变类平均法具有单调性。
18
第六章 聚类分析
对于可变法,因
p0,qp12120,1q21210,(11)
故可变法具有单调性。
对于离差平方和法,因
0,p
nk nr
np nk
0,q
nk nr
nq nk
0,
pqnnkr
np nk
nk nr
nq nk
nk nr nk
a dbc
n
n
(xtixi)2 (xtjxj)2
(ab)c(d) (ac)b(d)
t1
t1
(6.2.2)
9
第六章 聚类分析
利用两定量变量夹角余弦的公式:
n
xti xtj
cosij
t 1 n
n
其中
xt2i
xt2j
t 1
t 1
n
n
n
xti xtj a, xt2iab, xt2jac
t 1
t1
xi)2
n
t1
xt2i
nxi2
abnab2 n
(ab)[n(ab)]1(ab)(cd)
nn8源自第六章 聚类分析n (xtj
t1
xj)2
n
t1
xt2j
nx2j
acnac2 n
(ac)[n(ac)]1(ac)(bd)
n
n
故二值变量的相关系数为:
n
Cij(7)
(xtixi)x(tjxj)
t1
Dr2k
np nr
2
(X (k)
X
(
p)
)'(
)
nq nr
2
(X (k)
X (q))'( )
npnq nr2
(X
(k)
X
( p) )'( X
(k)
X
(q) )
npnq nr2
(X
(k)
X
(q) )'( X
(k)
X
( p) )
n2p nr2
Dp2k
nq2 nr2
Dq2k
npnq nr2
(X (k)
Dr2kn nrpDp 2kn nq r Dq2knn pn r2qDp 2q
解一: 利用
X(r)
1 nr
npX(p)nqX(q)
如果样品间的距离定义为欧氏距离,则有
Dr2k(X(k) X(r))('X(k) X(r))
npnrnq
X(k)
np nr
X(p)
nq nr
X(q)'
25
第六章 聚类分析
11
故离差平方和法具有单调性。
19
第六章 聚类分析
6-5 试从定义直接证明最长和最短距离法的单调性.
证明:先考虑最短距离法:
设第L步从类间距离矩阵
D D (L1)
(L1) ij
D(L1) pq
miD ni(L j1)
故合并Gp和Gq为一新类Gr,这时第L步的并类距离:
DL Dp(Lq1)
且新类Gr与其它类Gk的距离由递推公式可知
证明:设第L次合并Gp和Gq为新类Gr后,并类距离DL = Dpq,且必有Dpq2≤Dij2 . 新类Gr与其它类Gk的距离平方的
递推公式 ,当γ=0,αp≥0,αq≥0, αp+αq+ β ≥1 时
D k 2 rp D p 2 k q D q 2 k D p 2 q (p q ) D p 2 q D p 2q
t1
t1
故有 ci(j9)co ijs(ab a )a (c) (6.2.3)
10
第六章 聚类分析
6-3 下面是5个样品两两间的距离阵
0
D(0)
D(1)
4 6
0 9
0
16
7 3
10 5
0 8
0
试用最长距离法、类平均法作系统聚类,并画出谱系
聚类图.
解:用最长距离法:
① 合并{X(1),X(4)}=CL4,
X
(k)
1 nr
(np X ( p) nq X (q) )
X (k) X (k) 2 np X (k) X ( p) 2 nq X (k) X (q)
nr
nr
1 nr2
n
2 p
X
( p) X
( p)
2npnq X
( p) X
(q)
nq2 X
(q) X
(q)
28
第六章 聚类分析
利用 X(k)X(k) n1r npX(k)X(k) nqX(k)X(k)
④ 所有样品合并为一类CL1,并类距离 D4=10.
12
第六章 聚类分析
最长距离法的谱系聚类图如下:
Name of Observation or Cluster
X1
X4
X2
X5
X3
0
1
2
3
4
5
6
7
8
9
10
Maximum Distance Between Clusters
13
第六章 聚类分析
用类平均法:
n
(xti xi)(xtj xj )
rij
t1 n
n
(xti xi)2
(xtj xj )2
t1
t1
7
第六章 聚类分析
n
(xti xi)(xtj
t1
n
xj) xtixtj
t1
nxixj
anabac nn
1[an(ab)(ac)]1[a(abcd)(ab)(ac)]
n
n
adbc n
n
(xti
nq2 nr2
n1r2(nqnr
nqnp);nnr2p2