当前位置:文档之家› spss判别分析

spss判别分析


考察p=1的情况
已知G1是设备A生产的产品,G2是设备B生产的产品。 A设备质量高,其产品平均耐磨度1=80,方差12=0.25, B设备质量较差,其产品平均耐磨度2=75,方差22=4。 现有一产品X0,其耐磨度x0=78,试判断该产品是哪台 设备生产的。建立判别规则,误判率多大?Biblioteka 判别准则 G2:N(75,4)
直观上看,x0距1较近,但
G1:N(80,0.25)
类分界线
样本点到 某一类的 距离越近, 属于该类 的概率越 大
线性判别函数
▪ 设G1~N(1,∑1)和G2~N(2,∑2)为两正态总体, 且协差阵相等,即∑1=∑2=∑,则样本x到G1、 G2的马氏距离为
可以证明:
d2(x,G1)(xμ1)'Σ1(xμ1) d2(x,G2)(xμ2)'Σ1(xμ2)
– 判别函数:由描述各类的数值指标构成的分类规则, 明确已知各类应如何区别
▪ 例:肝炎病人的诊断
– 两总体判别:肝炎病人和正常人 – 判别依据:一些化验指标,形成判别公式-判别函数
Simple, Two-Group DA
Unknown observation
x
中国属于发展中国 家还是发达国家?
Mean of group 2 – from data you have
0
1
误判率P(1/2)=?
误判率P(2/1)=0.3085
∑1≠∑2时,非线性判别函数
d2(x,G1)(xμ1)'Σ11(xμ1) d2(x,G2)(xμ2)'Σ21(xμ2) W(x)d2(x,G2)d2(x,G1)
(xμ2)'Σ21(xμ2)(xμ1)'Σ11(xμ1)
判别函数W(x)为x的二次函数
影响误判率的因素 ——组均值差异
三总体单指标
当分布中心过于接近,误判率很高
Three groups - Two features
二、两总体判别分析
1. 马氏等距离法
▪ 基本思想:样品和哪个总体距离最近,就判断它属 于那个总体。
▪ 设:两个总体G1和G2,x是一个p维样本,x到总体 G1和G2的马氏距离分别记为d2(x, G1)和d2(x, G2),
判别分析与方差分析、聚类分析
聚类分析与判别分析间的联系
先采用聚类分析获得各个个体 的类别(classification );然后采 用判别分析建立判别函数,对新个 体进行类型识别(identification )
聚类分析的数据格式
k
判别分析的数据格式
判别分析的方法与数学描述
▪ 数据描述
– 对于m类总体G1,G2,……,Gm,其分布函 数分别为f1(y),f2(y),…… fm(y),对于一个给 定样品y,我们要判断出这个样本来自哪个总 体。判别分析的主要问题就是如何寻找最佳的 判别函数和建立判别规则。
d2(x,G2)d2(x,G1) (xμ2)'Σ-1(x-μ2)-(xμ1)'Σ-1(x-μ1)
2x'Σ1(μ1 μ2)μ'2Σ1μ2 μ1' Σ1μ1
2[x(μ1 2μ2))1(μ1 μ2)
令μ(μ1 μ2)/2,
判别函W数(x)
d2(x,G2)d2(x,G1) 2
(xμ)'1(μ1
μ2)
判W 别 ( x ) d 2 ( x , 函 G 2 ) 2 d 2 ( x , 数 G 1 ) ( x μ ) '1 ( μ 1 μ 2 )
Mean of group 1 – from data you have
如何判别:x与哪类距离近, 就归属于哪类:
若dx1<dx2,则x属于第1类 判别规则
若dx1>dx2,则x属于第2类
判别函数:f=dx1-dx2
>0, x∈2, <0, x∈1
Pattern Recognition Problem
▪ Maximizes posterior probability of correct classification
▪ Many others
– For example minimizes the cost of misclassification
▪ 具体问题具体分析
– 疾病的诊断 – 市场分析
Lots of perspectives suggest this basic rule as best
W(x)(xμ12μ2)12(12)a(xμ)
其中 μ12μ2,a12(12)
若 1 0 , 2 1 , 2 1 ,W 则 (x ) (x : 0 .5 ) 0 0 x x G G 1 2
x=0.5 G1
G2 或: W (x) 令 0解 , x 出 0 .x x5 0 0x .x . 5 5G G 1 2
▪ 误判问题
– 肝功指标高就一定是肝炎病人吗?
误判率Misclassification (1-D case)
两总体单指标的判别分析,假设正态分布,等方差
判别规则
转氨酶
非患者
肝炎 患者
?
非典?
Best - In What Sense?
▪ Minimizes probability of misclassification
第四章 判别分析 discriminant analysis
▪ 判别分析的基本概念 ▪ 两总体判别分析 ▪ 多总体判别分析 ▪ SPSS的判别分析过程
一、判别分析的基本概念
▪ 判别分析问题的描述:
– 已知若干组分类数据 – 现有一新样本,要求判定新样本数据属于已知分类
中的哪一类
▪ 判别分析的关键:
▪ 判别规则:若d2(x, G1)< d2(x, G2),则认为x属于G1 , 反之若d2(x, G1)> d2(x, G2),认为x属于G2 。
– 或判别函数:
W(x)= d2(x, G2)- d2(x, G1)
>0,x∈ G1 <0,x∈ G2
所谓“等距离”:到两总体距离相等的点构成类分界线
两指标、正态分布且方差相等的两总体
容易看出上述函数W(x)为x的线性函数,称为线性判 别函数,判别准则:W(x)与0比较
x∈G1,当W(x)>0, x∈ G2 当W(x)<0,
令W(x)=0可以得到两类分界线
Linear Discrimination Rule
W(x1,x2)=0
W(x1,x2)>0
考察p=1的情况
▪ 设G1~N(1,2)和G2~N(2,2),判别函数为:
相关主题