当前位置:
文档之家› (数据分析)距离判别法 bayes
(数据分析)距离判别法 bayes
dˆ12 ( x) ( x x (1) )11( x x (1) )
dˆ22 ( x)
(x
x
(
2)
)
1 2
(
x
x(2) )
判别法则为
x x
G1 G2
,若dˆ22( x) ,若dˆ22( x)
dˆ12 ( dˆ12 (
x) x)
5.1.3 判别准则的评价
当一个判别准则提出以后, 还要研究其优良性。考察 一个判别准则的优良性,
S1
1.1420 0.5546
2.4864
3.8902
0.8857
0.0198
0.4320
0.2640
0.8085
0.3045
0.3277
0.9871
0.0562
0.1204
0.5546
2.0325
S2
5.7882
4.0605
解 用距离判别法,假定两总体 G1 ,G2 的协方差矩阵 1 2 用proc discrim 过程,算得以下结果:
x(1) (8.3835,32.0556,7.1510,9.3210,16.5200,10.3755,1.7610,11.7620)T x(2) (9.2629,50.0271,7.3386,12.1814,15.7386,13.1057,1.9871,14.3286)T
要考察误判概率,即考察 x
属于G1 而误判为属于 G2 或 x
属于G2 而误判为属于G1 的概率。
164页 请阅读. 误差率有哪两种指标?
回代估计为 aˆ n12 n21 n1 n2
交叉确认估计 a* n1*2 n2*1
n1 n2
孰优孰劣?
用交叉确认法估计真实误判率 是较为合理的。
例5.1 某气象站预报某地区有无
2010-03-02
训练样本
训练样本
从每个总体 取得的样本叫训练样本。
一般,先要估计各个总体的均值向量与协方差矩阵。 判别分析从各训练样本中提取各总体的信息,构 造一定的判别准则,判断新样品属于哪个总体。
由于判别准则的不同,有各 种不同的判别分析方法,本章主要 介绍距离判别与Bayes判别。
Wˆ 1 (
x)
aˆ1T
x
bˆ1 , 其中aˆ1
S
1 (
x (1)
), b1
1 2
x (1)T
S
1 x (1);
Wˆ 2( x)
aˆ2T
x
bˆ2 ,其中aˆ2
S 1( x(2) ),b2
1 2
x (2)T
S 1 x (2);
Wˆ
(x)
aˆ T
(
x
x ), 其中aˆ
S
1 (
x (1)
x(2)
),
x
1 ( x(1) 2
x1人均粮食支出(元/人); x2人均副食支出(元/人); x 3人均烟酒茶支出(元/人); x 4 人均其他副食支出(元/人); x5人均衣着商品支出(元/人); x6 人均日用品支出(元/人); x7 人均燃料支出(元/人); x8 人均非商品支出(元/人);
试判别西藏,上海,广东应归属哪类.
0.2736 0.0632
S2 0.0632
0.1069
线性判别函数为
Wˆ1( x) 434.3540 39.7430x1 56.8763x2 Wˆ 2 ( x) 378.9209 37.6536x1 60.1928x2
用回代法将总体 G1(春旱)的第4号 样品误判为来自总体 G2(无春旱) 的样品,误判率为
春旱的观测x1资与料x 2中是,与气象
有关的综合预报因子。数据包括 发生春旱的6个年份的 x1 , x2
观测值和无春旱的8个年份的相 应观测值(见表5.1)。试建立 距离判别函数并估计误判率。
表5.1 某地区有无春旱的观测数
G1 :春旱
序号
x1
据
G2 :无春旱
x2
序号
x1
x2
1
24.8
-2.0
1
22.1
本章 判别分析 discriminate analysis
5.1 距离判别(P159)
5.1.1.判别分析
从统计数据分析的角度,判别分 析的模型如下: 设有k个总体 G1,G2 ,,Gk , 它们
都是p元总体,其数量指标是
(1, 2 ,, p )T
2010-03-02
对于任一新样品数据 x (x1, x2 ,, xp )T 要判断它来自哪一个总体 Gi 一种重要的情况是两个总体的判别 分析问题,它在应用中比较常见 (即k=2的情况)。
data f1; input y $ x1 x2;
cards; y1 24.8 -2.0 y1 24.1 -2.4 y1 26.6 -3.0 y1 23.5 -1.9 y1 25.5 -2.1 y1 27.4 -3.1
y2 22.1 -0.7 y2 21.6 -1.4 y2 22.0 -0.8 y2 22.8 -1.6 y2 22.7 -1.5 y2 21.5 -1.0 y2 22.1 -1.2 y2 21.4 -1.3
在实际问题中, 及 1,2通常是 未知的
要以训练样本估计 1 , 2
ˆ1
1 n1
n1 i 1
xi(1)
x(1) , ˆ2
1 n2
n2 i 1
xi( 2 )
x(2)
(5.10)
又两个训练样本的协方差矩阵各为
S1
1 n1 1
n1 i 1
(
x(1) i
x
(1)
)(
x(1) i
x (1) )T ,
(
x
2)
按下列判别法则:
x x
G1 G2
, ,
若d
2 2
(
若d
2 2
(
x) x)
d12 d12
( (
x) x)
(5.16)
x 其中
d12
(
x
),
d
2 2
(
x
)
分别是样品
到两个总体 G1,G2 的马氏平方距离,
它们皆是 x 的二次函数,
称为二次判别函数。
实际问题中,1,2 , 1, 2
往往未知,用各总体 的训练样本作估计,
0.3771
3.9032
6.5506
4.7585
0.0468
0.8425
因此,距离判别法则化为
x x
G1 , 若W1 ( G2 , 若W1(
x) x)
W2 ( W2 (
x) x)
(5.7)
W1( x),W2 ( x)皆是 x 的线性函数。
因此,当 1 2 时,两总体的 距离判别简化为线性判别,
W1( x),W2 ( x)称为线性判别函数。
实际上,这种情况还可以进一步化 简为……略
-0.7
2
24.7
-2.4
2
21.6
-1.4
3
26.6
-3.0
3
22.0
-0.8
4
23.5
-1.9
4
22.8
-1.6
5
25.5
-2.1
5
22.7
-1.5
6
27.4
-3.1
6
21.5
-1.0
7
22.1
-1.2
8
21.4
-1.3
解在
1 2
的假设下,建立距离判别的线 性判别函数。利用SAS系统 proc discrim 过程,编SAS程序:
5.1.2 两个总体的距离判别
对于p元空间中的两个点:
x ( x1, x2,, xp )T , y ( y1, y2,, yp )T
而欧氏距离是
n
|| x y || ( xi yi )2 i 1
因此,对一元总体,样本点 x1
距一元正态总体 N (, 2 )的马氏
平方距离是
x1
2
x(2) );
(5.13)
这样,两个总体的距离判别法则为
x x
G1 G2
, 若Wˆ1( , 若Wˆ1(
x) x)
Wˆ 2 ( Wˆ 2 (
x) x)
(5.14)
2.两个总体协方差矩阵不等的情况:
1 2这时,可令
d12 ( x) ( x 1)11( x 1)
d
2 2
(
x
)
(
x
2)
1 2
表5.2 1991年全国30个省区市城
镇居民月平均消费
x x x x x 序号 省(区、市) 类型
名
12 3
4 5 x6 x7 x8
1
山西
1 8.3 23.35 7.51 8.62 17.42 10.00 1.04 11.2
2
5
1
…
内蒙古
1 9.2 23.75 6.61 9.19 17.77 10.48 1.72 10.5
xT 1 x
22T 1 x
2T
பைடு நூலகம்
1 2
(
xT
1
x
21T
1
x
1T
1 1
)
22T 1 x 2T 12 21T 1 x 1T 11 )
记
W1( x)
a1T
x
b1 , (其中a1
11 ), b1
1 2
1T
11 ,
W2( x)
a2T
x
b2 ,(其中a2
12 ), b2
1 2
T 2
12 ,