当前位置:文档之家› 判别分析

判别分析

判别分析是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多元统计分析方法。

这个分类是根据经验和专业得出的,是已知的。

判别分析的目的十分明确:已知事物有n种类型,当得到一个新的样品数据,根据判别函数最终得出该样本归属于哪一类,因此建立最佳判别函数和判别规则就是判别分析的主要工作。

判别分析的因变量是分类变量,也就是已知的分类,自变量就是研究对象的各种特征,可以是任何尺度的变量(分类变量需要设为哑变量)。

根据判别中的组数,可以分为两组判别分析和多组判别分析;
根据判别函数的形式,可以分为线性判别和非线性判别;
根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等;
根据判别准则不同,可以分为距离判别、Fisher判别、Bayes判别法等。

一、判别分析的基本原理
设有k个总体G1,G2,G3...Gk,希望建立一个准则,使得对给定的任意一个样品x,通过这个准则就能判断它来自哪个总体,这个准则在某种意义下是最优的,如错判率最小或错判损失最小等。

判别分析的基本模型就是判别函数,判别函数的一般形式为
Y为判别值
X为自变量,也就是反映对象特征的变量
a为变量系数,也就是判别系数,不同的判别方法会计算出不同的判别系数
二、判别分析的基本步骤
1.确定研究问题
2.检查适用条件
3.选择判别方法,建立判别模型
4.验证判别模型
5.应用判别模型
三、判别分析的假设条件
1.确定的分类至少是两个或两个以上
2.各总体间存在显著差异,如各总体不存在显著差异则无法判别或误判几率很大。

2.变量间相互独立,不存在多重共线性
3.各组变量的方差齐性,协方差矩阵相等
4.自变量服从多元正态分布
以上条件很难满足,但是判别分析比较稳健,轻度违反对结果并无太大影响。

三、常用判别分析方法
1.距离判别
属于最简单的判别方法,适用于自变量均为连续变量的情况,基本思想是:
首先根据已知分类数据分别计算各类的质心(各类的均值),判断的准则是对任意一个未知样品,如果它与某个质心距离最近,则认为它来自这个质心代表的分类。

如果遇到到两个质心的距离相等,则让该样品待判。

距离通常为欧氏距离和马氏距离,但是马氏距离可以克服变量间相关性的干扰,并消除量纲影响。

距离判别对分布、方差无特殊要求
2.最大似然判别
用于自变量均为分类变量的情况,该方法建立在独立事件概率的乘法定理基础上,根据训练样本信息求得自变量在各种组合情况下样本被分为任何一类的概率,当新样品进入时,则计算它被分到每一类的条件概率(似然比),概率最大的那一类就是最终评定的归类。

3.Bayes判别
判断样品的所属类时,考虑的不是建立判别函数,而是计算新样品属于各总体的后验概率P,比较k个概率的大小,然后将新样品判归为来自概率最大(或属于
错判概率最小)的总体。

简单说就是根据先验概率分布求出后验概率分布。

4.Fisher判别
基本思想:对数据进行坐标变换,寻找一个能将总体尽可能分开的方向。

具体做法是借用一元方差分析的思想构造判别函数,系数的确定原则是使组间离差最大,而组内离差最小;其次确定临界值y0,对于新样品带入判别函数并与y0比较,以此判断类别。

几何意义为:将数据看出n维空间的一个点,让其向超平面上投影,求判别系数就是求超平面的法向量,判别系数的方向不同,投影后的可分离程度也不同,我们的目的就是寻找最好的投影方向。

Fisher判别属于距离判别,对分布、方差无特殊要求
5.逐步判别
逐步判别并不是一种专门的判别方法,而是一种变量筛选方法,有时一些变量对于判别并没有起到多大作用,为了得到最判别最合适的变量,可以使用逐步判别,和逐步回归一样,是一个变量筛选的过程,整个过程变量有进有出,利用各种检验进行判断,筛选出变量之后,再使用其他的判别分析方法进行处理。

三、判别分析和聚类分析的区别与联系
区别
判别分析必须事先知道需要判别的类型和数目,并且有一些已知分类的样品,这样才能建立判别函数,有了判别函数,才能对未知分类的新样品进行归类,因此判断分析某种程度上带有预测的含义,属于有监督的。

聚类分析只是描述性统计,并不需要事先知道样品的类型与数目,完全根据样品自身的数据特征按照某种聚类规则进行分类,属于无监督的。

联系
二者都是数据分类方法,实际工作中往往结合起来使用,判别分析中对事物已知的类型和数目,可以用聚类分析来得到。

相关主题