第10章 多维标度法
Λ diag (1 , 2 ,, r ) ,那么, B XX ΓΛΓ 1/ 2 X ΓΛ
(10.6) (10.7)
即 bij X iX j 。由于,
1 1 n 2 1 n 2 1 2 bij (dij dij dij 2 2 n j 1 n i 1 n
1 n 2 1 n 2 n dij X iX i n X j X j n X iX j n j 1 j 1 j 1
(10.3)
1 n 1 n 2 1 ( n dij ) n2 n j 1 i 1
n n
2 dij i 1 j 1 n n
n
1 n 其中, X X i 。用矩阵表示为: n i 1
B (bij )nn
( X 1 X ) ( X 1 X , , X n X ) 0 ( X X ) n
这里,我们称 B 为 X 的中心化内积阵。 再来考虑充分性,如果假设 B 0 ,我们欲指出 X 正好为 D 的 一个构图,且 D 是欧氏型的。 记 1 2 r 为 B 的正特征根, 1 , 2 , , r 对应的单位 特征向量为 e1 , e2 , , er ,Γ (e1 , e2 , , er ) 是单位特征向量为 列组成的矩阵, X ( 1 e1 , 2 e2 , , r er ) ( xij ) nr , 则 X 矩 阵 中 每 一行 对 应 空间 中 的 一个 点 , 第 i 行 即 为 X i 。 令
第十章第一节 引言多维度法第二节 第三节第四节
古典多维标度法(Classical MDS) 权重多维标度(WMDS)
实例分析与计算实现
第一节 引 言
在实际中我们会经常遇到这些的问题,给你一组城市,你总
能从地图上测出任何一对城市之间的距离。但若给你若干城 市的距离,你能否确定这些城市之间的相对位置呢?假定你 知道只是哪两个城市最近,哪两个城市次近等等,你是否还 能确定它们之间的相对位置呢?假定通过调查了解了10种饮 料产品在消费者心中的相似程度,你能否确定这些产品在消 费者心理空间中的相对位置呢?在实际中我们常常会遇到类 似这样的问题。 多维标度法(Multidimensional Scaling)就是解决这类问题 的一种方法,它是一种在低维空间展示“距离”数据结构的 多元数据分析技术,简称MDS。 多维标度法起源于心理测度学,用于理解人们判断的相似性。 Torgerson拓展了Richardson及Klingberg等人在三、四十年 代的研究,具有突破性地提出了多维标度法,后经
(1) C C (2) cij cii
i, j 1, 2, , n
则矩阵 C 为相似系数阵, cij 称为第 i 点与第 j 点间的相似系数。
在进行多维标度分析时,如果数据是多个分析变量的原始数
据,则要根据聚类分析中介绍的方法,计算分析对象间的相 似测度;如果数据不是广义距离阵,要通过一定的方法将其 转换成广义距离阵才能进行多维标度分析。
美国10城市间的飞行距离
4 701 940 879 0 1374 968 1420 1645 1891 1220 5 1936 1745 831 1374 0 2339 2451 347 959 2300 6 604 1188 1726 968 2339 0 1092 2594 2734 923 7 748 713 1631 1420 2451 1092 0 2571 2408 205 8 2139 1858 949 1645 347 2594 2571 0 678 2442 9 2182 1737 1021 1891 959 2734 2408 678 0 2329 10 543 597 1494 1220 2300 923 205 2442 2329 0
整数 r 和 R r 中的 n 个点 X 1 , X 2 , , X n ,使得
2 dij ( X i X j )( X i X j )
i, j 1, 2,, n
则称 D 为欧氏距离阵 3.相似系数阵
定义 10.3 一个 n n 阶的矩阵 C (cij ) nn ,如果满足条件:
三、度量MDS的古典解
根据上述古典多维标度法的基本思想及方法,可给出求古典
2 dij ) i 1 j 1
n
n
i 城市与 j 城市之间的距离。那么,如果一个 n × n 的 距离阵 D 是欧氏距离阵的充要条件是 B 0 。 首先考虑必要性,设 D 是欧氏距离阵,则存在 X 1 , X 2 , , X n R r ,使得
d
2 ij 为
2 dij ( X i X j )( X i X j )
X iX i X j X j X j X i X iX j X iX i X j X j 2 X iX j
(10.1)
1 n 2 1 n 2 n dij X j X j n X iX i n X iX j (10.2) n i 1 i 1 i 1
定义10.1 一个n n阶的矩阵D=(dij ) n n ,如果满足条件:
(1) D D (2) dij 0, dii 0,
i, j 1, 2,, n
则矩阵 D 为广义距离阵, d ij 称为第 i 点与第 j 点间的距离。
定义 10.2 对于一个 n n 的距离阵 D ( d ) , 如果存在某个正 ij nn
表10.1
1 1 2 3 4 5 6 7 8 9 10 0 587 1212 701 1936 604 748 2139 2182 543 2 587 0 920 940 1745 1188 713 1858 1737 597 3 1212 920 0 879 831 1726 1631 949 1021 1494
多维标度法内容丰富、方法较多。按相似性(距离)数据测
量尺度的不同MDS可分为:度量MDS和非度量MDS。当利 用原始相似性(距离)的实际数值为间隔尺度和比率尺度时 称为度量MDS(metric MDS),当利用原始相似性(距离)的 等级顺序(即有序尺度)而非实际数值时称为非度量 MDS(nonmetric MDS)。按相似性(距离)矩阵的个数和 MDS模型的性质MDS可分为:古典多维标度CMDS(一个 矩阵,无权重模型)、重复多维标度Replicated MDS(几个 矩阵,无权重模型)、权重多维标度WMDS(几个矩阵, 权重模型)。本章仅介绍常用的古典多维标度法和权重多维 标度法。
2 dij ) i 1 j 1
n
n
1 2 n 2 n 2 n n (2 X iX j X iX j X iX j X iX j ) 2 n j 1 n i 1 n i 1 j 1
( X iX j X iX X X j X X ) ( X i X )( X j X )
我们假设有 n 个城市对应欧氏空间的 n 个点,其距离阵为
D ,它们所对应的空间的维数为 r ,第 i 个城市对应的点记 为 X i ,则 X i 的坐标记作 X i ( X i1 , X i 2 ,, X ir ) 。 设 B (bij ) nn ,其中:
1 1 n 2 1 n 2 1 2 bij (dij dij dij 2 2 n j 1 n i 1 n
n
1 1 2 X iX i X j X j X iX j n i 1 n j 1 n i 1 j 1
由(10.1)(10.2)(10.3)和(10.4)式,得知 、 、
(10.4)
1 1 n 2 1 n 2 1 2 bij (dij dij dij 2 2 n j 1 n i 1 n
据概念。 1.相似数据与不相似数据 相似数据:如果用较大的数据表示非常相似,用较小的 数据表示非常不相似,则数据为相似数据。如用10表示 两种饮料非常相似,用1表示两种饮料非常不相似。 不相似数据:如果用较大的数值表示非常不相似,较小 的数值表示非常相似,则数据为不相似数据,也称距离 数据。如用10表示两种饮料非常不相似,用1表示两种饮 料非常相似。 2.距离阵
通过上面的讨论我们知道,只要按公式(10.5)求出各个点 对之间的内积,求得内积矩阵 B 的 r 个非零特征值及所对应 的一组特征向量,据公式(10.7)即可求出 X 矩阵的 r 个列 向量或空间 n 个点的坐标。
这里需要特别注意,并非所有的距离阵都存在一个r维的欧
氏空间和n个点,使得n个点之间的距离等于D。因而,并不 是所有的距离阵都是欧氏距离阵,还存在非欧氏距离阵。 当距离阵为欧氏时,可求得一个D的构图X,当距离阵不是 欧氏时,只能求得D的拟合构图。在实际应用中,即使D为 欧氏,一般也只求r =2或3的低维拟合构图。 值得注意的是,由于多维标度法求解的n个点仅仅要求它们 的相对欧氏距离与D相近,也就是说,只与相对位置相近而 与绝对位置无关,根据欧氏距离在正交变换和平移变换下的 不变性,显然所求得解并不唯一。
1=Atlanta , 2=Chicago,
3=Denver,
4=Houston,
5=Los Angeles
6=Miami , 7=New York, 8=S an Francisco , 9=Seattle, 10=Washington. DC
一、相似与距离的概念
在解决上述问题之前,我们首先明确与多维标度法相关的数
二、古典多维标度分析的思想及方 法
用矩阵表示为 设 r 维空间中的 n 个点表示为 X 1 , X 2 , , X n ,
X ( X 1 , X 2 ,, X n ) 。在多维标度法中,我们称 X 为距离 ˆ 阵 D 的一个拟合构图, 求得的 n 个点之间的距离阵 D 称为 D ˆ ˆ 的拟合距离阵,D 和 D 尽可能接近。 如果 D D , 则称 X 为 D 的一个构图。