当前位置：文档之家› 多元统计分析PPT

多元统计分析PPT

目
1．问题引入 2．思路点拨 3．判别分析方法
录
4．DNA序列分类问题的求解 5. 参考文献
1．问题引入
首先，我们来考虑一下2000年“网易杯” 全国大学生数学建模竞赛的A题是关于“DNA
序列分类”的问题
人类基因组中的DNA全序列是由4个碱基A，T，C，G按一定顺序排成的长约30亿的序列，毫无疑问，这是一本记录着人类自身生老病死及遗传进化的全部信息的 “天书”。但是，除了这四种碱基外，人们对它所包含的内容知之甚少，如何破译这部“天书”是二十一世纪最重要的任务之一。在这个目标中，研究DNA全序列具有什么结构，由这4个字符排成的看似随机的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学（Bioinformatics）最重要的课题之一。
判别分析方法
1.距离判别 2.贝叶斯（Bayes）判别 3.费希尔（Fisher）判别 4.判别分析模型的显著性检验
3.1 距离判别
距离判别的基本思想：样品 X 离哪个总体的距离最近，就判断 X 属于哪个总体。这里的“距离”是通常意义下的距离（欧几里得距离：在 m 维欧几里 T 得空间 R 中，两点 X ( x1 , x2 ,, xm ) 与 T Y ( y1 , y2 ,, ym ) 的欧几里得距离，也就是通常我们所说的距离为 d 2 ( X ,Y ) ( X1 Y1 ) 2 ( X 2 Y2 ) 2 ( X m Ym ) 2 ）吗？带着这个疑问，我们来考虑这样一个问题：
作为研究DNA序列的结构的尝试，试对以下序列进行分类：问题一：下面有20个已知类别的人工制造的序列（见附件1），其中序列标号1—10 为A类，11-20 为B类。请从中提取特征，构造分类方法，并用这些已知类别的序列，衡量你的方法是否足够好。然后用你认为满意的方法，对另外20个未标明类别的人工序列（标号21—40）进行分类，把结果用序号（按从小到大的顺序）标明它们的类别（无法分类的不写入）： A类； B类。
细读全题对未知事物进行分类
问题的本质
对另外20个未标明类别的DNA序列进行分类对182个自然DNA 序列进行分类
如果将每一个DNA序列都看作样本，那么该问题就进一步提炼成一个纯粹的数学
G1 问题：设有两个总体（类）和，其分布特征（来自各个总体的样本）已知， G2 对给定的新品，我们需要判断其属 X 于哪个总体（类）。
问题二：请对 182个自然DNA序列（/mcm 00/problems.htm）进行分类。它们都较长。用你的分类方法对
它们进行分类，并给出分类结果。看了这道题，我们应当从何处入手呢，我们应该怎样进行分析呢……
2．思路点拨
根据所给的20 个已知类别的 DNA 序列所提供的信息
对于上面的数学问题，可以用很多成熟的方法来解决，例如：（1）BP神经网络；（2）聚类分析；
（3）判别分析；等等。
如何选取方法是建模过程中需要解决的另外一个问题：BP神经网络是人工神经网络的一种，它通过对训练样本的学习，提取样本的隐含信息，进而对新样本的类别进行预测。BP神经网络可以用以解决上面的 DNA序列分类问题，但是，如何提取特征、如何提高网络的训练效率、如何提高网络的容错能力、如何建立网络结构是能否成功解决DNA序列分类问题的关键所在；聚类分析和判别分析都是多元统计分析中的经典方法，都可以用来将对象（或观测值）分成不同的集合或类别，但是，聚类分析更侧重于“探索”对象（或观测值）的自然分组方式，而判别分析则侧重于将未知类别的对象（或观测值）“归结”（或者说，分配）到已知类别中。显然，判别分析更适合用来解决上面的DNA序列分类问题。
虽然人类对这部“天书”知之甚少，但也发现了DNA序列中的一些规律性和结构。例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3字符串，其中大多数用于编码构成蛋白质的20种氨基酸。又例如，在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外，利用统计的方法还发现序列的某些片段之间具有相关性，等等。这些发现让人们相信，DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。
设有两个正态总体 G1 , G2 ， X ~ N (1 , 2 ) 和 Y ~ N ( 2 ,6 2 ) ，现在有一个新的样品位于 A 处（参见图1）
d2
d1
图 1
从图中不难看出：
显然不是，因为从概率的角度来看， G2 总体的样本比较分散，而总体的样 G1 A 本则非常集中，因此处的样品属于总 G1 体的概率明显大于属于总体的概率， G2 A 也就是说，处的样品属于总体的“可 G2 能性”明显大于属于总体的“可能 G1 性”！这也说明了用欧几里得距离来度量样品到总体距离的局限性。因此，需要引入新的距离概念——这就是下面给出的马氏距离。
G2
定义1（马氏距离）：设总体
3．判别分析方法
判别分析是用于判别样品所属类别的一种多元统计分析方法。判别分析问题都可以这样描述：设有 k个 m维的总体 G1, G2 , , Gk ，其分布特征已知（如已知分布函数分别为 F1 ( x), F2 ( x), , Fk ( x) 或者已知来自各个总体的样本），对给定的一个新样品 X ，我们需要判断其属于哪个总体。一般来说，根据判别规则的不同，可以得到不同的判别方法，例如，距离判别、贝叶斯（Bayes）判别、费希尔（Fisher）判别、逐步判别、序贯判别等。这里，我们简单介绍三个常用的判别方法：距离判别、贝叶斯（Bayes）判别和费希尔（Fisher）判别。

e商务文档

多元统计分析PPT

相关文档推荐：