当前位置:文档之家› 判别分析法预测

判别分析法预测


YOUR SITE HERE
一、费歇准则准则与准则下的两类判别线性模型
考虑指标与p个自变量有关的两类判别:设指标y按 其取值范围只分为A、B两类,对A、B两类分别有 nA,nB个样品数据。 Fisher提出,建立p个因子的一个线性判别函数
y c1 x1 c2 x2 c p x p c j x j
YOUR SITE HERE
R0 所谓Fisher判别 法,是一种先投 影,后用距离判 别的方法。
寻找一个方向,也就是 图上的虚线方向,沿着 这个方向朝和这个虚线 垂直的一条直线进行投 影会使得这两类分得最 清楚。 可以看出,如果向其他 方向投影,判别效果不 会比这个好。
R = c1x1 + c2x2
1
1/ 2
为p维空间上点xi,xj之间的广义(统计)距离,亦称
马氏距离
YOUR SITE HERE
特别地,当
diag ( , ,..., )
2 1 2 2 2 p
1 2 MD( xi , x j ) 2 ( xi x j ) k 1 k
p
1/ 2
p
于是,可得线性判别函数为:
y c1 x1 c2 x2 c p x p c j x j
j 1
YOUR SITE HERE
三、确定临界值及对新样品作出判别
当判别函数求出后,可进一步求得: 类平均值
p
y ( A) c j x j ( A)
j 1
y ( B) c j x j ( B)
用适当的数学方法从多 个变量中提出有关判别 分类的有效信息,综合 成一个像单变量那样好 用的判别标准。
YOUR SITE HERE
判别分析法所要解决的问题是对样品的分类 ,其特点为:在已知研究对象的条件下,确 定未知对象属于已知分类中的哪一类。 在包括矿床预测在内的各类地质研究中,经 常遇到这类问题。 判别分析中的“类比法”思想与传统地质学 中所用类别法的不同: ①定量;②综合考虑多种因素或标志;③以 某种最优化准则作分类基础
第九讲
判别分析法预测 (Discriminant Analysis)
YOUR SITE HERE zjchencs@
陈志军 LOGO
主要内容
第一节 引言 第二节 费歇两组判别 第三节 贝叶斯多组判别 和逐步判别的基本概念
YOUR SITE HERE
第一节 引言
YOUR SITE HERE
x11 x 21 ... xm1 x12 x22 ... xm 2 ... ... ... ... x1 p x2 p ... xmp m p
Y 未知 ? y11 y12 y y22 21 ... ... ym1 ym 2
x11 x 21 ... xn1 x12 x22 ... xn 2 ... ... ... ... x1 p x2 p ... xnp n p
因变量:矿床值(矿化强 度优劣、矿床储量)
已知含矿单元
对实际问 题进行多 元统计的 建模过程
已知无矿单元
d j x j ( A) x j ( B)
为消除因子量纲的影响,通常在求得判别系数后, 可将其标准化后再检验
cj* = cj/sj
YOUR SITE HERE
马氏距离(Mahalanobis马哈拉诺比斯距离)
设xi,xj是服从均值为μ,协方差为Σ > 0的 总体Xpx1抽取的样品,则称
( xi x j )T ( xi x j ) MD( xi , x j )
预处理 特征提取 训练(学习)桔子 Nhomakorabea橙子
YOUR SITE HERE
这是一个学习和预测的过程。
回归分析——定量预报
判别分析——定性预报
模式识别
在许多自然科学和社会科学问题的研究 中,我们所关心的不是样品的某一指标 数值的多少,而是其类别、归属。
生物学:各类性状→物种类别 医学:各类症状→SAS、猪流感 地质学:岩石分类、地层时代、断层性质、有矿无 矿预测 气象学:天气预报是晴、阴、雨?
YOUR SITE HERE
-4
-3 -2
-1
0
1
2
3
-4
-2
0
2
4
6
YOUR SITE HERE
x2 ↑ 闪长玢岩出露面积比
80 70 60 50 40 30 20 10
-1
训练样本
有矿否?
0 1
0
1
0
0
-1
0.5
1
1.5
2
2.5
3
3.5
→x1
A总体,有矿 B总体,无矿
磁异常指数对数值
YOUR SITE HERE
YOUR SITE HERE
c1 c 2 C c p
nA
=L-1D
其中, L 11 l 21 L ... Lp1
nB
L12 L22 ... Lp 2
d1 ... L1 p d ... L2 p 2 D ... ... ... Lpp d p
YOUR SITE HERE
四、判别效果的分析和检验
所建立的判别函数是否有实际意义,判别效果有无 实用价值,准确度如何,同样需用作检验分析。
(1)总体差异的显著性检验 判别分析中,首先要求假定两类样品来自有显著差 异、可区别的总体,两总体的均值应有显著差异。 (2)各因子(判别变量)的重要性检验 可以通过其两类样本均值之差来衡量
j 1
p
于是,判别临界值
nA y ( A) nB y ( B) nA nB y0 y ( A) y ( B) nA n B nA n B nA n B
可进一步可导出
y0 c j x j
j 1
YOUR SITE HERE
p
将新样品的各变量观测值代入判别函数, 求得相应的函数值y(判别得分)
k 1 k 1 nA nB
达到最大
YOUR SITE HERE
二、两类判别函数的参数估计
I是y的函数,也是cj的函数。 根据极值原理,I取极大值的条件是 I对系数cj的偏导数为0,即:
I 0 c j
等价于:
(j=1,2,3,…,p)
H 1 G c j I c j
(因为 lnI = lnG – lnH)
j 1
p
其中判别系数cj(j=1,2,..,p)的选择应使得y值满足: (1)A类与B类这两类点群尽可能地远离, 即两类点群重心间距离尽可能达到最大; (2)同一类的样品点尽可能集中。 [(1)(2)两点统称为Fisher准则]
YOUR SITE HERE
组间离差平方和(尽可能大)
G [ y ( A) y ( B)]
误判率(A) =
nerr ( A) 100% nA
nerr ( B) 误判率(B) = 100% nB
YOUR SITE HERE
实 例
YOUR SITE HERE
基于GIS技术的矿产资源评价分析系统
YOUR SITE HERE
GIS技术支持下单元划分
YOUR SITE HERE
GIS技术支持下控制区确定、变量取值与处理
YOUR SITE HERE
在对地质对象的类型研究中,有两大类方法。 一类是聚类分析(或称点群分析,群分析) 另一类就是判别分析。
判别分析的主要思想是用统计方法将 待判的未知样品与已知类型的样品进 行(定量)类比,以确定待判样品应 归属于其中哪一类。
YOUR SITE HERE
全碱-硅图解(TAS)
177
192
各单元变量取 值与处理
控制区
对各单元 进行编号
17 1 2 3 4 5 6
32 7 8 9 10 11 12 13 14 15 16
YOUR SITE HERE
①确定目标→设置指标变量→收集数据→
自变量:各种控矿地质 因素或找矿标志 控制区(模型区)单元 X (x1 , x 2 ,..., x p )
Y已知 (y1 , y 2 ,..., y q ) y11 y 21 ... yn1 y12 y22 ... yn 2 ... ... ... ... y1q y2 q ... ynq nq
②建立模型→估算模型参数 →模型检验与修改(包括:a.模型地质意义检验;b.统计上的假设检验和)→ 预测区单元 X
YOUR SITE HERE
第二节 费歇两组判别
YOUR SITE HERE
费歇判别的基本思想
费歇判别思想是投影,使多维问题简化为一 维问题来处理。 选择一个适当的投影轴,使所有的样品点都投 影到这个轴上得到一个投影值。对这个投影 轴的方向的要求是:使每一类内的投影值所 形成的类内离差尽可能小,而不同类间的投 影值所形成的类间离差尽可能大。
x2 闪长玢岩出露面积比 ↑ 80
70 60 50 40 30 20 10 0 0 0.5 1 1.5 2 2.5 3 A B
3.5
磁异常指数 对数值 →x1
YOUR SITE HERE
判别分析特点:定量类比、定性预报
判别分析也是一种类比法,它是从定量角度,综合 考虑多种地质变量或标志,按照某种最优化判别准 则作为分类基础,来进行分析的。其判别准则分为 两类: 费歇准则(R.A.Fish,1936)和贝叶斯准则。
YOUR SITE HERE
YOUR SITE HERE
最简单的情形下,单就 一个变量的值就可区分 不同的类别。 但是,通常情况下,一 个变量往往难于区分不 同的分类,只有利用多 个变量,才能比较全面 从各个不同的角度刻画 个母体间的差异。
相关主题