当前位置:文档之家› 距离判别分析

距离判别分析


-1
Σ2
x
-
μ
=
x
-
μ
-
Σ
1 2
-
Σ
1 2
x
-
μ
= x - μ Σ-1 x - μ
3、若变量之间是相互无关的,则协方差
矩阵为对角矩阵
1
11
Σ
22
11
1
O
pp
Σ1
22
O
1
pp
1
11
1
d
2
(x,
G)
(x
-
μ)
22
(x - μ)
O
1
pp
x1 1 2 x2 2 2 L xp p 2
为 (1, 2 , , p )、 协方差阵Σ= ij p p 0
的总体G抽得的两个观测值,则称
d 2 (x,y) (x y)1(x y)
为X与Y之间的Mahalanobis距离平方
样本X和G类之间的马氏距离平方定义为 X与G类重心间的距离平方:
d 2 (x,G) (x )1 (x )
待判, 如d 2 ( y,G1) d 2 ( y,G2 )
1. 两个总体协方差矩阵相等 由于实际问题中只能得到两个样本的协方 差矩阵S1,S2,因此当两个总体协方差矩阵 相等时如何确定总体的协方差矩阵S ?
S (n1 1)S1 (n 2 1)S 2 n1 n2 2
其中n1,n2分别为两个样本的容量.
若两类蠓虫协方差矩阵相等,试判别以下 的三个蠓虫属于哪一类?
若选k个主成分,则按他们的加权平均进行排名 其中权向量就是k个特征值的归一化向量.
解决实际问题有时采用协方差矩阵,有 时采取相关系数矩阵,究竟用那个矩阵要具 体问题具体分析,通常有以下准则:
1. 若量纲不一样,应当先进行无量纲化,而相 关系数矩阵就是实现无量纲化的方法之一,故 此时应采取相关系数矩阵计算;
d=(x-ma)S-1(x-ma)’- (x-mb)S-1(x-mb)’
4.若d<0,则x属于A类;若d>0,则x属于B类
上述公式可以化简为: W(x)=(ma-mb)S-1(x-(ma+mb)/2)’
若W(x)>0,x属于G1;若W(x)<0,x属于G2
注意: 1.此处ma,mb都是行向量,与书中不同; 2.当x是一个矩阵时,则用ones矩阵左乘 (ma+mb)/2以后,方可与x相减.
11
22
pp
(二)两个总体距离判别法
先考虑两个总体的情况,设有两个总体 G1 ,G2 对给定的样本Y,判别一个样本Y到底 是来自哪一个总体,一个最直观的想法是计 算Y到两个总体的距离。故我们用马氏距离来 给定判别规则,有:
y G1, 如d 2 y,G1 d 2 y,G2 , y G2, 如d 2 y,G2 d 2 y,G1
例1.现测得6只Apf和9只Af蠓虫的触长,翅长数据
Apf:(1.14,1.78), (1.18,1.96), (1.20,1.86), (1.26,2.00), (1.28,2.00), (1.30,1.96)
Af:(1.24,1.72), (1.36,1.74), (1.38,1.64), (1.38,1.82), (1.38,1.90), (1.40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08)
§1 距离判别
(一)马氏距离 距离判别的最直观的想法是计算样 品到第i类总体的平均数的距离,哪个 距离最小就将它判归哪个总体,所以, 我们首先考虑的是是否能够构造一个恰 当的距离函数,通过样本与某类别之间 距离的大小,判别其所属类别。
设x (x1, x2 , , x p )和 y ( y1, y2 , , y p )是从期望
2. 用协方差矩阵与相关系数矩阵计算主成分 得分的公式不一样,协方差矩阵用原始数据 (统一趋势后)左乘特征值矩阵;相关系数矩阵 用标准化以后的矩阵左乘特征值矩阵.
如何解读计算主成分的数学表达式 我们设计算第一主成分的公式为:
Y1 a11x1 a12 x 2 a13x 3 a14 x 4
若a11, a12 ,a14的绝对值比较大,表明第一主成 分主要提取了x1, x2 ,x4三个原始指标的信息; 如果此时再计算第二主成分,你会发现第二主 成分x3系数的绝对值就比x1, x2 ,x4系数的绝对 值要大,也就是说第二主成分弥补了第一主成 分的不足.
注:重心即均值
马氏距离和欧式距离之间的差别 马氏距离
d 2(x,G) (x - μ)Σ-1(x - μ)
欧氏距离
d 2(x,G) (x - μ)(x - μ)
马氏距离有如下的特点:
1、马氏距离不受计量单位的影响;
2、马氏距离是标准化后的变量的欧式距离
y
=
-1
Σ2
x
-
μ
yy
=
ห้องสมุดไป่ตู้
-1
Σ2
x
-
μ
主成分分析可以有助于回归分析中自变量 的选择,如果原有n个自变量进行拟合效果 不好,可考虑选择k个主成分为自变量进行 拟合(k<n),其原因在于原始的自变量之间 可能存在一定的相关性,而主成分之间彼 此不相关,可望消除多重共线性.
第四章 判别分析 判别分析利用已知类别的样本为标准,对未 知样本进行判类的一种统计方法。它产生于本世 纪30年代。近年来,在自然科学、社会学及经济 管理学科中都有广泛的应用。 判别分析的特点 是根据已掌握的、历史上每个类别的若干样本的 数据信息,总结出客观事物分类的规律性,建立 判别公式和判别准则。然后,当遇到新的样本点 时,只要根据总结出来的判别公式和判别准则, 就能判别该样本点所属的类别。
实际问题中如何应用主成分分析
如果遇到多目标决策问题,即有n个样品, 每个样品有p个指标,要确定n个样品的排序就 可以采取主成分分析.其思路就是将原有的p个 指标,换成k(k<p)个主成分,然后根据主成分 的数值(又称主成分的得分)进行排序。
若为利润型指标,则主成分得分大者排名靠前;
若为成本型指标,则主成分得分小者排名靠前; 若只选第一主成分,则按其得分进行排名;
判别步骤:
1.计算A、B两类的均值向量与协方差阵;
ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)
2.计算总体的协方差矩阵
S (n1 1)S1 (n 2 1)S 2 n1 n2 2
其中n1,n2分别为 两个样本的容量.
3.计算未知样本x到A,B两类马氏距离之差
相关主题