第六章 判别分析
解决这个问题可以有多种途径,我们只介绍其常用 的一些,如距离判别,贝叶斯判别,费歇判别等。
§6.1 距离判别
如果事先已有m类的知识,我们把每一类看成一 个总体,设每个总体都是p维变量,第j类Gj 的平均 向量为 u j ,协方差矩阵为Σj(j=1,2,…,m),
现有一个样本 y ,要判断它属于哪一个总体,
马氏距离判别
待判样本到各类的马氏距离
d ( y, G j ) ( y u j )
2
1 j
(y uj )
距离判别的基本原则如下: 1.计算 y 与各总体Gj(j=1,…,m)的马氏距离
d2(
d 2 ( y, Gk ) min d 2 ( y, G j ),则判 划入第k类。即若
0.0351
0.0264 0.1624 0.2333
竹 波段 4 5 6 7 水 波段 4 5 6 4 0.00094 5 -0.00015 0.00021 6 4 0.00091 5 0.00143 0.00117 6
林 7 0.01006 0.00782 0.04611 0.08261 地 7 0.00024 0.00005 0.00095 平均数 0.0583 0.0443 0.0255 平均数 0.0728 0.0498 0.3261 0.4378
波段),用以估计各类型(总体)平均值和协方差阵。
本例取自杭州附近某林区利用光谱进行土地分类
的研究材料。为了说明问题,材料是经显著简化了的。
这里只取了四个类型(纯针叶林,阔叶混交林,竹林,
水地),每个类型选取15块观测样地进行光强度测量。 所示
然后算出了四个类型的离差矩阵和平均值,如表(6.1)
表(6.1) 四种土地类型各波段的离差阵Q 阔 波段 4 4 0.00088 5 0.00061 叶 6 0.00417 林 7 0.00521 平均数 0.0503
第6章 判别分析
在生产、科研和日常生活中,我们经常会遇到需要 对某一研究对象属于哪种情况作出判断。 例如,要根据这两天天气情况判断明天是否会下雨。 医生要根据病人的体温、白血球数目及其它症 状判断此病人是否患某种疾病 地质勘探中需要从岩石标本的多种特性去判断 该地区是否有某种矿 持股票者要根据某一种股票近期变化情况判断 此种股票是升还是降。 这些问题都是判别问题
2.找出其中的最小值,若d2( y
1 j m
,G ), y j
,Gk)最小,则将 y
定 y Gk 。
注意:如果总体平均值 u j 及总体协方差Σj都为未
1 x j , S j ( j 2,, m) 。这时
知,自然用样本平均值及样本协方差阵来代替。即从
Gj中抽取nj个样本单元来计算
0.034
0.046
0.029
0.064
0.042
(ⅱ)马氏(Mahalanobis)距离 印度统计学家Mahalanobis设计出了这种距离。
1 d xi x j S xi x j
2 ij
马氏距离与原始数据的测量单位无关。 马氏距离虽然与测量单位无关,但它 又会夸大缩小变量的作用,这是马氏距离在 实用中的不足。
表(6.2) 对16个样本材料进行距离判别
样本号 波段 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
4
0.052
0.054
0.056
0.041
0.092
0.065
0.076
0.067
0.050
0.048
0.030
0.033
0.053
0.061
0.062
0.068
5
0.034
判别分析是判别样品所属类型的一种统计方法。 例如,事先已知某地区土壤分类,分为G1,G2,…, Gm类,现在又取得了一个土样,需要判定这个土样属 于哪一类。 类似的问题还很多,如判断一株植物属于哪个种, 判断一个林分属于哪个类型,判断一个地区属于哪种 气候类型等。 这些问题有一共同特点,就是事先已有“类”的划 分,或事先已对某些已知样本分好了“类”,需要判 断那些还未分类的样本究竟属于哪一类。 正因为它有这样的特点,所以有些文献把判别分析 又叫做有监督分类。
5
6 7 针 波段 4
0.00071
0.00531
0.05360
0.00728
0.07165 0.10233
0.0357
0.2490 0.3266
叶 5
纯 6
林 7 平均数
4
5 6 7
0.00261
0.000231
0.000269
0.002130
0.002310 0.020779
0.002419
0.002720 0.023690 0.028887
即要将该样本进行归类。 一个最直观的想法,就是计算该样本到各总体 之间的距离,并且将其归入离它最近的那一类。
欧氏距离与马氏距离
(ⅰ)欧氏(Euchiled)距离
d ( xi x j ) ( xi x j )( xi x j )
ij 2
p
1
欧氏距离虽然很有用,很也有明显的缺点。 例如,当改变测量单位时,算出的距离数值就不 相同。再则它将样本的不同属性(即各变量)之 间的差别等同看待,有时不能满足实际要求,因 为事物个体间不同属性的差异对于区别个体有着 不同的重要性。
2
1 d ( y, G j ) ( y x j )S j ( y x j )
例6.1 在遥感技术的应用研究中,利用卫星磁带的
各波段光强度进行土地类型分类。首先将研究地区分 成m个类型,想象将各类型划分成大小相同的许多样 地,在每个类型中抽取一部分样地作为观测样地。测 定每个观测样地四个波段的光谱度(4,5,6,7四个 然后依次判断各样地所属类型,从而达到将全部土地 进行分类的目的。
0.00656 0.00516 0.03606
0.00039 -0.00015 0.00148
7
0.00091
0.0190
现在要根据这些基础材料判别各样地属于哪一个类型,如 果将所研究地区的全部样地都判定了它属于哪个类型,也就达 到了划分土地类型的目的。为此只要测定各样地的四个波段光 强度,用判别分析的方法进行判定就可以了。