当前位置:文档之家› 多元统计分析-判别分析

多元统计分析-判别分析

1
1 2
1
2
2
3.1.2 多总体的距离判别
对于多个总体的情况,可以类似于两个总体的 处理过程,我们给出如下的步骤: 第一步:计算样品 X 到每个总体的马氏距 离 d i2 ( X )(i 1,2,, k ) ;
2 X 第二步:比较 di ( X )(i 1,2,, k ) 的大小,将样品 判为距离最小的那个总体。
X G1 , if:W ( X ) 0 …… ( 2) X G , if: W ( X ) 0 2
注意判别准则(1)式或者(2)式将
m
m 维空间
R 划分成两部分: D1 {X | W ( X ) 0}和D2 {X | W ( X ) 0}
也即 R D1 D2 。距离判别的实质就是:给出 空间 R m 的一个划分D1 和 D2 ,如果样品 X 落入 D1之中, X 之中,则判定 则判定 落入 D2 X ;如果样品 G1
利用已知样本,易得 1 , 2 , 1 , 2 的无偏 n n 1 1 估计分别为 2 2 X1 X1 X X j j n1 j 1 n2 j 1 n1 1 1 1 1 1 1 T S ( X j X )( X j X ) n1 1 j 1 n2 1 2 2 2 2 T S2 ( X X )( X X ) j j n2 1 j 1
对于上面的数学问题,可以用很多成熟 的方法来解决,例如: (1)BP神经网络; (2)聚类分析;
(3)判别分析;等等。
如何选取方法是建模过程中需要解决的另外一个 问题:BP神经网络是人工神经网络的一种,它通过对 训练样本的学习,提取样本的隐含信息,进而对新样 本的类别进行预测。BP神经网络可以用以解决上面的 DNA序列分类问题,但是,如何提取特征、如何提高 网络的训练效率、如何提高网络的容错能力、如何建 立网络结构是能否成功解决DNA序列分类问题的关键 所在;聚类分析和判别分析都是多元统计分析中的经 典方法,都可以用来将对象(或观测值)分成不同的 集合或类别,但是,聚类分析更侧重于“探索”对象 (或观测值)的自然分组方式,而判别分析则侧重于 将未知类别的对象(或观测值)“归结”(或者说, 分配)到已知类别中。显然,判别分析更适合用来解 决上面的DNA序列分类问题。
和 d ( X , G2 ) : 2 2 ) X G 1 如果 d ( X , G1 ) d ( X , G2则判定 ; 2 2 ) X G 反之,如果 d ( X , G1 ) d ( X , G2 则判定 : 2 即
2
X G1 , if:d 2 ( X , G1 ) d 2 ( X , G2 ) … …( 1) 2 2 X G2 , if:d ( X , G1 ) d ( X , G2 )
d ( X , G) ( X ) ( X )
2 T 1
3.1.1
两总体的距离判别
k 2 )的情况。设 先考虑两个总体( G1 和 G2 , 2 分别是 G1 和 G2 的 有两个总体 和 1 G1 和 G2 的均值。对 协方差阵, 2 分别是 1 和 于新的样品 X ,需要判断它来自那个总体。
X G1 , if:W ( X ) 0……(3) X G2 , if : W ( X ) 0
C. 1 , 2 , 1 , 2 的估计
在实际应用中,总体的均值和协方差阵一般 是未知的,我们所知道的仅仅是一组样本或者观 测值,在这种情况下,就需要利用数理统计的知 识,对 , , , 进行估计。
(2)错判造成的损失在距离判别中也没有 考虑。 在很多情况下,不考虑上面的两种因素是 不合理的。贝叶斯(Bayes)判别方法克服了 距离判别的不足。
3.2 贝叶斯判别
与前面距离判别方法不同的是:所谓贝 叶斯(Bayes)判别,就是在考虑各总 体的先验概率和错判损失的情况下,给 m 出空间 R 的一个划分: D {D1 , D2 ,, Dk } , 使得运用此划分来判别归类时,所带来 的平均错判损失最小。
3.判别分析方法
判别分析是用于判别样品所属类别的一种 多元统计分析方法。判别分析问题都可以这样 描述:设有 k个 m维的总体 G1, G2 ,, Gk ,其分布 特征已知(如已知分布函数分别为 F1( x), F2 ( x),, Fk ( x) 或者已知来自各个总体的样本),对给定的一 个新样品 X ,我们需要判断其属于哪个总体。 一般来说,根据判别规则的不同,可以得到不 同的判别方法 ,例如,距离判别、贝叶斯 (Bayes)判别、费希尔(Fisher)判别、逐步 判别、序贯判别等。这里,我们简单介绍三个 常用的判别方法:距离判别、贝叶斯(Bayes) 判别和费希尔(Fisher)判别。
判 别 分 析 方 法
1.距离判别 2.贝叶斯(Bayes)判别 3.费希尔(Fisher)判别 4.判别分析模型的 显著性检验
3.1 距离判别
距离判别的基本思想:样品 X 离哪个总体的距离最近,就判断 X 属于哪个总体。 这里的“距离”是通常意义下的 距离(欧几里得距离:在 m 维欧几里 得空间 R 中,两点 X ( x1 , x2 ,, xm )T 与 T Y ( y1 , y2 ,, ym ) 的欧几里得距离,也就 是通常我们所说的距离为 d 2 ( X ,Y ) ( X1 Y1 ) 2 ( X 2 Y2 ) 2 ( X m Ym ) 2 )吗? 带着这个疑问,我们来考虑这样 一个问题 :
问题二:请对 182个自然DNA序 列 (/mcm 00/problems.htm)进行分类。 它们都较长。用你的分类方法对
它们进行分类,并给出分类结果。 看了这道题,我们应当从何 处入手呢,我们应该怎样进行分 析呢……
2.思路点拨
根据 所给 的20 个已 知类 别的 DNA 序列 所提 供的 信息
虽然人类对这部“天书”知之甚少,但也 发现了DNA序列中的一些规律性和结构。 例如,在全序列中有一些是用于编码蛋白 质的序列片段,即由这4个字符组成的64种 不同的3字符串,其中大多数用于编码构成 蛋白质的20种氨基酸。又例如,在不用于 编码蛋白质的序列片段中,A和T的含量特 别多些,于是以某些碱基特别丰富作为特 征去研究DNA序列的结构也取得了一些结 果。此外,利用统计的方法还发现序列的 某些片段之间具有相关性,等等。这些发 现让人们相信,DNA序列中存在着局部的 和全局性的结构,充分发掘序列的结构对 理解DNA全序列是十分有意义的。
为了得到更简单的判别规则,我们下面 计算新样品到两个总体的马氏距离d 2 ( X , G1 ) 和 d 2 ( X , G2 ) 的差
d 2 ( X , G1 ) d 2 ( X , G2 ) ( X 1 )T 1 ( X 1 ) ( X 2 )T 1 ( X 2 ) 2 X T 1 ( 2 1 ) 1T 11 2T 1 2 2( X
G2
定义1(马氏距离):设总体
G

m
维总体 ( m 个因素或指标),其均 T 值向量为 ( , ,, (这里 T 表 ) 1 2 m 示转置),协方差阵为 ( ij ) mm T ,则样品 X ( x , x ,, x )到总体 G 1 2 m 的马氏距离定义为

设来自 i 1,2 )的训练样本为 Gi (
X ( x , x ,, x )
i j i j1 i j2
i T jm
其中 i 1,2 表示来自哪个总体, j 1,2,, ni 表示来自总体 Gi 的样本量。
A. 1 2 时的判别方法
要判断新样品 X 来自哪个总体,一般的想法是分 别计算新样品到两个总体的马氏距离 d 2 ( X , G1 )
i (i 1,2,, k ) 如果均值为: i (i 1,2,, k ) 和协方差: 未知,可以类似两个总体的情形运用训练样本来进
行估计。这里不再赘述。
3.1.3
距离判别的不足
距离判别方法简单实用,容易实现,并且 结论的意义明确。但是,距离判别没有考虑: (1)各总体本身出现的可能性在距离判别 中没有考虑;
m
X G2 。
B. 1 2 时的判别方法
当 1 时,根据判别准则( 1)式,我们同 2 样的给出判别函数 W ( X 为 )
W ( X ) ( X 1 ) ( X 1 ) ( X 2 ) ( X 2 )
T 1 1 T 1 2
相应的判别规则为






第 十 十 章 章
多元统计分析 多元统计分析
主 讲:孙 中 奎

1.问题引入 2.思路点拨 3.判别分析方法

4.DNA序列分类问题的求解 5. 参考文献
1.问题引入
首先,我们来考虑一下2000年“网易杯” 全国大学生数学建模竞赛的A题是关于“DNA
序列分类”的问题
人类基因组中的DNA全序列是由4个碱 基A,T,C,G按一定顺序排成的长约30亿 的序列,毫无疑问,这是一本记录着人类 自身生老病死及遗传进化的全部信息的 “天书”。但是,除了这四种碱基外,人 们对它所包含的内容知之甚少,如何破译 这部“天书”是二十一世纪最重要的任务 之一。在这个目标中,研究DNA全序列具 有什么结构,由这4个字符排成的看似随机 的序列中隐藏着什么规律,又是解读这部 天书的基础,是生物信息学 (Bioinformatics)最重要的课题之一。
1 2
2
)T 1 ( 2 1 )
2 T ( X )其中源自1 ( 1 2 ) 2

T
(1 2 )
1


W(X ) (X )
显然,判别规则(1)式等价于
通常,称 为判别系数向量称 W ( X )为线性判别函数。
相关主题