当前位置：文档之家› 距离判别分析

距离判别分析

-1
Σ2
x
-
μ
=
x
-
μ
-
Σ
1 2
-
Σ
1 2
x
-
μ
= x - μ Σ-1 x - μ
3、若变量之间是相互无关的，则协方差
矩阵为对角矩阵
1
11
Σ
22
11
1
O
pp
Σ1
22
O
1
pp
1
11
1
d
2
(x,
G)
(x
-
μ)
22
(x - μ)
O
1
pp
x1 1 2 x2 2 2 L xp p 2
为 (1, 2 , , p )、协方差阵Σ= ij p p 0
的总体G抽得的两个观测值，则称
d 2 (x,y) (x y)1(x y)
为X与Y之间的Mahalanobis距离平方
样本X和G类之间的马氏距离平方定义为 X与G类重心间的距离平方：
d 2 (x,G) (x )1 (x )
待判，如d 2 ( y,G1) d 2 ( y,G2 )
1. 两个总体协方差矩阵相等由于实际问题中只能得到两个样本的协方差矩阵S1，S2,因此当两个总体协方差矩阵相等时如何确定总体的协方差矩阵S ?
S (n1 1)S1 (n 2 1)S 2 n1 n2 2
其中n1,n2分别为两个样本的容量.
若两类蠓虫协方差矩阵相等，试判别以下的三个蠓虫属于哪一类？
若选k个主成分，则按他们的加权平均进行排名其中权向量就是k个特征值的归一化向量.
解决实际问题有时采用协方差矩阵，有时采取相关系数矩阵，究竟用那个矩阵要具体问题具体分析，通常有以下准则：
1. 若量纲不一样，应当先进行无量纲化，而相关系数矩阵就是实现无量纲化的方法之一，故此时应采取相关系数矩阵计算；
d=(x-ma)S-1(x-ma)’- (x-mb)S-1(x-mb)’
4.若d<0,则x属于A类;若d>0,则x属于B类
上述公式可以化简为： W(x)=(ma-mb)S-1(x-(ma+mb)/2)’
若W(x)>0，x属于G1;若W(x)<0，x属于G2
注意： 1.此处ma,mb都是行向量，与书中不同； 2.当x是一个矩阵时，则用ones矩阵左乘 (ma+mb)/2以后，方可与x相减.
11
22
pp
（二）两个总体距离判别法
先考虑两个总体的情况，设有两个总体 G1 ,G2 对给定的样本Y，判别一个样本Y到底是来自哪一个总体，一个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来给定判别规则，有：
y G1，如d 2 y，G1 d 2 y，G2 ， y G2，如d 2 y，G2 d 2 y，G1
例1.现测得6只Apf和9只Af蠓虫的触长,翅长数据
Apf：(1.14,1.78), (1.18,1.96), (1.20,1.86), (1.26,2.00), (1.28,2.00), (1.30,1.96)
Af：(1.24,1.72), (1.36,1.74), (1.38,1.64), (1.38,1.82), (1.38,1.90), (1.40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08)
§1 距离判别
（一）马氏距离距离判别的最直观的想法是计算样品到第i类总体的平均数的距离，哪个距离最小就将它判归哪个总体，所以，我们首先考虑的是是否能够构造一个恰当的距离函数，通过样本与某类别之间距离的大小，判别其所属类别。
设x (x1, x2 , , x p )和 y ( y1, y2 , , y p )是从期望
2. 用协方差矩阵与相关系数矩阵计算主成分得分的公式不一样，协方差矩阵用原始数据 (统一趋势后)左乘特征值矩阵；相关系数矩阵用标准化以后的矩阵左乘特征值矩阵.
如何解读计算主成分的数学表达式我们设计算第一主成分的公式为：
Y1 a11x1 a12 x 2 a13x 3 a14 x 4
若a11, a12 ,a14的绝对值比较大，表明第一主成分主要提取了x1, x2 ,x4三个原始指标的信息；如果此时再计算第二主成分，你会发现第二主成分x3系数的绝对值就比x1, x2 ,x4系数的绝对值要大，也就是说第二主成分弥补了第一主成分的不足.
注：重心即均值
马氏距离和欧式距离之间的差别马氏距离
d 2(x,G) (x - μ)Σ-1(x - μ)
欧氏距离
d 2(x,G) (x - μ)(x - μ)
马氏距离有如下的特点：
1、马氏距离不受计量单位的影响;
2、马氏距离是标准化后的变量的欧式距离
y
=
-1
Σ2
x
-
μ
yy
=
ห้องสมุดไป่ตู้
-1
Σ2
x
-
μ
主成分分析可以有助于回归分析中自变量的选择，如果原有n个自变量进行拟合效果不好，可考虑选择k个主成分为自变量进行拟合（k<n),其原因在于原始的自变量之间可能存在一定的相关性，而主成分之间彼此不相关，可望消除多重共线性.
第四章判别分析判别分析利用已知类别的样本为标准，对未知样本进行判类的一种统计方法。它产生于本世纪30年代。近年来，在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息，总结出客观事物分类的规律性，建立判别公式和判别准则。然后，当遇到新的样本点时，只要根据总结出来的判别公式和判别准则，就能判别该样本点所属的类别。
实际问题中如何应用主成分分析
如果遇到多目标决策问题，即有n个样品，每个样品有p个指标，要确定n个样品的排序就可以采取主成分分析.其思路就是将原有的p个指标，换成k(k<p)个主成分，然后根据主成分的数值（又称主成分的得分）进行排序。
若为利润型指标，则主成分得分大者排名靠前；
若为成本型指标，则主成分得分小者排名靠前; 若只选第一主成分，则按其得分进行排名；
判别步骤：
1.计算A、B两类的均值向量与协方差阵;
ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)
2.计算总体的协方差矩阵
S (n1 1)S1 (n 2 1)S 2 n1 n2 2
其中n1,n2分别为两个样本的容量.
3.计算未知样本x到A,B两类马氏距离之差

e商务文档

距离判别分析

相关文档推荐：