第10章-多维标度分析
2015/10/9
主编:费宇
12
10.2.2 已知距离矩阵时CMDS解
上面求解CMDS解的实现过程,可使用
stats包中的cmdscale函数;也可使用MASS包 中isoMDS函数.
例10.3 对表10.1给出的我国八个城市间 的距离矩阵D ,利用R软件stats包中的 cmdscale函数求 的CMDS解,给出拟合构 ˆ 及拟合构造点. 图D
2015/10/9
主编:费宇
25
2015/10/9
主编:费宇
主编:费宇 中国人民大学出版社
2015/10/9
主编:费宇
1
第10章 多维标度分析
10.1 多维标度法的基本思想 10.2 古典多维标度法 多维标度法的几个基本概念; 已知距离矩阵时CMDS解; 已知相似系数矩阵时CMDS解; 10.3 非度量多维标度法 10.4 案例分析与R实现
2015/10/9
主编:费宇
2
第10章 多维标度分析
10.1 多维标度法的基本思想 • 多维标度法:是用低维空间 Rk (k<p)中的n个 点去重新标度和展示高维空间Rp中n个点(的 某种距离或某种相似性),将高维空间中的研 究对象(样本或变量)简化到低维空间中进行定 位、归类和分析且有效保留研究对象间原始 关系的多元数据分析技术的总称. • 是一种维数缩减方法,主要思想是在降维的 同时让新得到的n个点与原来的n个点保持较 高的相似度(如位置关系、距离、类别等).
X ( x1, x2 ,, xn )T
称 X 为 D 的一个古典多维标度(CMDS)解, 称 xi 为 D 的一个拟合构造点,称 X 为 D 的拟 ˆ 为 D 的拟合距离阵. 合构图,称 D
2015/10/9
主编:费宇
7
ˆ 时 ,称x 为 D 的一个构造点, 特别,当 D D i 称 X 为 D 的构图,注意 D 的构图不唯一.
2015/10/9
主编:费宇
3
• • • • •
多维标度法起源于上世纪40年代的心理测度. 1958年 Torgerson 正式提出了这一方法. 目前应用广泛,内容丰富,方法较多. 主要分为两类:度量分析法,非度量分析法. 它与主成分分析有相通之处: 共同点:均先降维,再做简明有效的分析; 不同点:主成分法按包含信息大小选取主成 分;多维标度法按标度前后距离阵 尽量接近或相似来构造拟合点.
2015/10/9
主编:费宇
5
10.2.1 多维标度法的几个基本概念
2015/10/9
主编:费宇
6
古典多维标度(CMDS)解的定义
对于距离阵 D (dij )nn ,多维标度法的目的是 要寻找较小的 k 和R k 中的 n个点 x1 , x2 ,, xn ,
ˆ ) ,d ˆ 表示 x 与 x 在R k 中的欧氏距 ˆ (d 记 D ij nn ij i j ˆ 与 D 在某种意义下尽量接近, 记 离,使得 D
2015/10/9
主编:费宇
17
例10.4 六门课程之间的相关系数矩阵C (它 也为相似系数矩阵), 求C的CMDS解, 并给 出拟合构图 及拟合构造点.
2015/10/9
主编:费宇
18
令 dij (cii c jj 2cij ) 2 2cij , i, j 1, , 6.
主编:费宇
4
2015/10/9
10.2
古典多维标度分析
例10.1 在地图上重新标度我国八个城市,使得 它们之间的距离尽量接近于表10.1中的距离.
北京 北京 天津 济南 青岛 郑州 上海 杭州 南京 0 118 439 668 714 1259 1328 1065 0 363 571 729 1145 1191 936 0 362 443 886 872 626 0 772 776 828 617 0 984 962 710 0 203 322 0 305 0 天津 济南 青岛 郑州 上海 杭州 南京
由 aij d 2 A
2 ij
由 bij aij ai a j a B
B 的特征值和前两个特征向量分别为:
1 2 3, 3 4 =7 =0.
x(1) ( 3 2, 3 2, 0, 3 2, 3 2, 0, 0 ) x(2) ( 1 2, 1 2, 1,
12
可得六门课程的广义距离阵,余下工作可以 仿照例 10.3 进行:
2015/10/9
主编:费宇
19
例10.4(续)
# 打开数据文件eg10.4.xls,选取A10:G16,然后复制 > eg10.4=read.table("clipboard", header=T) #读入数据 > D10.4=cmdscale(eg10.4, k=2, eig=T); D10.4 > sum(abs(D10.4$eig[1:2]))/sum(abs(D10.4$eig)) #算a1.2 > sum((D10.4$eig[1:2])^2)/sum((D10.4$eig)^2) #算a2.2 > x=D10.4$points[, 1] > y=D10.4$points[, 2] > plot(x, y, xlim=c(-0.6, 0.8),ylim=c(-0.6,0.7)) #绘拟合图 >text(x, y, labels=s(eg10.4),adj=c(0, -1),cex=0.8)
2015/10/9
主编:费宇
13
例10.3(续)
# 打开数据文件eg10.3.xls, 选取C2:K10后复制 > eg10.3=read.table("clipboard", header=T) #读入数据 > D10.3=cmdscale(eg10.3, k=2, eig=T); D10.3 # k取为2, 并给出B的前两个特征向量和所有特征值 > sum(abs(D10.3$eig[1:2]))/sum(abs(D10.3$eig)) #j算a1.2 > sum((D10.3$eig[1:2])^2)/sum((D10.3$eig)^2) #算a2.2 > x=D10.3$points[, 1]; y=D10.3$points[, 2] > plot(x, y, xlim=c(-700, 800),ylim=c(-300, 600)) #根据两个特征向量的分量大小绘散点图 > text(x, y, labels=s(eg10.3), adj=c(0, -0.5), cex=0.8) #将拟合点用行名标出
2015/10/9
T T
1 2, 1 2, 1, 0 )
主编:费宇
11
例10.2(续) 由D求 X的过程示例
ˆ 恰为 D 由 x(1) 和 x(2) 所得的 7 个构造点在 R 中的欧氏距离阵D
2
7 个构造点:( 3 2, 1 2), ( 3 2, 1 2), (0, 1), ( 3 2, 1 2), ( 3 2, 1 2), (0, 1), (0, 0).
• 可看出:算术、代数、几何较为接近,英语和盖尔语 较为相近,而历史课程与其他课程的差异较大
2015/10/9
主编:费宇
20
2015/10/9
主编:费宇
21
10.4 案例分析与R实现
案例10.1 表10.5给出了2010年我国31个省市自 治区农村居民家庭人均生活消费支出的统计数 据.一共选取八个指标:x1为食品消费;x2为 衣着消费;x3为居住消费;x4为家庭设备用品 及服务;x5为交通通讯;x6为文教娱乐用品及 服务;x7为医疗保健;x8为其他商品和服务支 出.试用多维标度法对其进行统计分析,并对 分析结果的实际意义进行解释.
2015/10/9
主编:费宇
8
几个相关矩阵构造:
2015/10/9
主编:费宇
9
距离阵为欧氏距离阵的充要条件:
从欧氏距离阵D出发得到构图 X的步骤: D AB X
见下面例10.2.
210.2 由D求 X的过程示例
0 1 0 D= 3 1 0 2 3 1 0 3 2 3 1 0 1 3 2 3 1 0 1 1 1 1 1 1 0
2015/10/9
主编:费宇
23
2015/10/9
主编:费宇
24
从图10.3可以比较直观地看出,在总支出方面,上海、 北京、广东、浙江、江苏、天津、福建等沿海地区, 是我国传统的经济发达地带,又是改革开放的前沿, 雄厚的经济实力为农业和农村经济发展奠定了坚实的 基础,农村居民的人均消费水平相对较高.北京在享 受型消费方面领先于其他省市,说明北京的农民比较 重视文化生活,由于他们身处祖国的政治文化中心, 因此在文化、教育、医疗等方面有着很大的消费和投 入.而广东农民更重视物质上的消费,尤其在食物方 面,广东人很下功夫,但是他们在文化生活上支出却 不高,也不太注重这方面的投入.
2015/10/9
主编:费宇
22
案例10.1(续)
本案例我们采用MASS包中的isoMDS函数来实现 #打开数据文件case10.1.xls, 选取区域A2:I33, 然后复制 > case10.1<-read.table("clipboard", header=T) #读入数据 > D1=as.matrix(case10.1) #需要将数据转换成矩阵形式 > D=dist(D1) #求距离阵 > library(MASS) #载入MASS包, 使用isoMDS函数 > fit=isoMDS(D, k=2); fit > x=fit$points[,1]; > y=fit$points[,2] > plot(x, y) #画散点图 > text(x, y, labels=s(case10.1), adj=c(0.5,1.5), cex=0.7) #设置标签位置大小 > abline(h=0, v=0, lty=3) #采用虚线划分四个象限