植物的分类问题研究毕业论文目录论文总页数:17页1 引言 (1)1.1课题背景 (1)1.2国外研究现状 (1)1.3本课题研究的意义 (1)1.4本课题的研究容和研究方法 (1)1.4.1 研究容 (1)1.4.2 研究方法 (1)2 鸢尾花问题 (2)3鸢尾花分类模型 (3)3.1基本假设 (3)3.2符号说明 (3)3.3快速聚类 (3)3.4建立模型 (5)3.5模型求解 (5)4 鸢尾花判别模型 (7)4.1收集训练样本数据 (7)4.2模型假设 (8)4.3建立模型 (8)4.4模型求解 (10)5 模型推广与评价 (13)5.1模型评价 (13)5.2模型推广 (14)结语 (14)参考文献 (15)致谢 (16)声明 (17)1 引言1.1 课题背景植物是我们日常生活中极其常见的一种生物,与我们的生活息息相关。
植物种类非常之多,地球上已知的植物种类大概就有五十多万种,所以为了能更好的了解、保护和使用植物资源,对植物进行鉴别、分类就显得十分重要,所以科学家创立了植物分类学,开始科学的对植物进行分类研究。
1.2 国外研究现状人类认识世界往往都是先将被认识的对象进行分类,过去的研究主要都是依靠经验和采集大量的数据来对植物进行分类,很少有使用数学工具来进行分类的。
但是伴随着时代的发展和技术的提升,人们开始慢慢的把数学工具应用到了分类学当中,这就形成了数值分类学;随着数学方法的不断迭代更新,后来人们又将多元分析的技术应用到了数值分类学当中,最终形成了聚类分析。
伴随着计算机的诞生和计算机技术的高速发展,人们将计算机技术应用到了分类学当中,对分类学产生了重大的影响。
数值分类学就是建立在数学理论方法基础上,依托计算机的高速运行计算特性来进行分类的。
这样的到的结果比较客观,是科学的计算,而不是靠经验的推断,并且研究过程当中,运算速度非常之快,效率非常之高,这些都是以前的分类学家很难做到的。
1.3 本课题研究的意义分类不仅仅只局限于植物的分类应用当中,同时分类在其他学科以及我们实际工作当中也有许多应用。
比如,在经济学当中,为了了解不同地区的城镇居民的收入和消费情况,往往需要划分不同的类型去研究;在产品质量监管工作当中,往往需要根据产品的某些重要指标来将其划分位一、二、三等品等;在实际工作当中,我们可以设计一个分类模型,可以对股票的涨跌情况进行分类,用来预测股票的后期走势。
本文对植物分类问题的研究,在植物的鉴别分类,以及保护植物资源以及生物多样性都有着非常重要的意义。
1.4 本课题的研究容和研究方法1.4.1 研究容本文主要研究了鸢尾属植物的分类问题,主要采用快速聚类法对其进行聚类分析和距离判别法对其进行判别分析。
1.4.2 研究方法学习分类就是要学会一种分类方法或者分类函数。
本文首先采用快速聚类的原理方法建立分类模型来对鸢尾属植物进行聚类,并借助数据分析软件SAS 软件对鸢尾属植物的数据进行数据处理和分类;然后使用马氏距离判别原理建立判别分析模型对训练样本进行判别分析,并计算误判率的交叉确认估计;最后对分类结果做讨论分析。
2 鸢尾花问题本文抽取了150组鸢尾属植物的数据作为样本,数据来源于统计学家R.A.Fisher创建的鸢尾花数据集[1],考察鸢尾属植物中三个不同品种的花的四个形状,每50组数据取自同一品种的花,每一种花的相关数据采取如下四种属性来表述(1)x1:花萼片的长度(毫米);(2)x2:花萼片的宽度(毫米);(3)x3:花瓣的长度(毫米);(4)x4:花瓣的宽度(毫米);抽样数据见表1。
3 鸢尾花分类模型3.1 基本假设1.本模型采用的数据均真实有效,并且是可操作的。
2.样本均为随机抽取。
3.不考虑人为因素的影响。
3.2 符号说明3.3 快速聚类首先将抽取的样品进行简单的分类,接着根据样品间的欧氏距离按照一定方法逐步调整,最后直到不能再调整为止。
快速聚类法适用于样本数目较大的数据集的聚类分析,但是需要事先指定分类的数目,而且此数目对最终分类结果有较大影响。
因此在实际中一般要对多个分类的数目进行尝试,来找出合理的分类结果[2]。
1.选择初始聚点本文在聚类过程中均采用欧氏距离,即:d(x x,x x)=||x x−x x||=[(x x−x x x)(x x−x x)]1 2采用最小最大原则来选择初始聚点,因为最终需要把收集到的150个样本分成3类,所以初始聚点的选择为3个。
首先求出所给样品中欧氏距离相距最远的两个样品x x1,x x2为初始的2个聚点,即选择x x1,x x2,使得x(xx1,x x2)=x x1x2=max{x xx}由欧氏距离求得2个初始聚点x x1,x x2分别是序号为21和60的样本,即max{x xx}=x(x21,x60)=60.9426然后,选择第3个聚点x x3,使的min{x(x x3,x xx),x=1,2}=max{xxx[x(x x,x xx),x=1,2],x≠x1,x2}由欧氏距离求得的第3个初始聚点x x3是序号为77的样本,即min{x(x77,x xx),x=1,2}=max{xxx[x(x x,x xx),x=1,2],x≠x1,x2}=37.7227初始聚点集合为x0={x21,x60,x77}2.快速聚类法步骤(1)设求出的3个初始聚点的集合是x0={x1(0),x2(0),x3(0)}用下列原则来实现初始分类x x(0)={x:x(x,x x(0))≤x(x,x x(0)),x=1,2,3,x≠x},x=1,2,3通过这个步骤各个样品将归类成不相交的3类,初始分类的原则就是将每个样品归类到最近的初始聚点为一类,这样就可以得到一个初始分类x(0)={x1(0),x2(0),x3(0)}(2)重新从x(0)开始,来计算新的聚点集合x1,然后把x x(0)的重心分别计算出来作为新的聚点x x(1)=1x x∑x xx x∈x x(0),x=1,2,3其中x x是x x(0)中的样品数。
这样,又可以得到新的聚点集合x(1)={x1(1),x2(1),x3(1)}接着从x(1)开始,继续对样品做新的分类,同样:x x(1)={x:x(x,x x(1))≤x(x,x x(1)),x=1,2,3,x≠x},x=1,2,3得到分类x(1)={x1(1),x2(1),x3(1)}这样依次计算下去。
(3)设在第m步得到分类x(x)={x1(x),x2(x),x3(x)}在上面的递推过程当中,x x(x)是类x x(x−1)的重心,x x(x)可能不一定是样品,也可能不是x x(x)的重心。
当m逐渐增大,分类趋于稳定,此时,x x(x)就会近似为x x(x)的重心,从而x x(x+1)≈x x(x),x x(x+1)≈x x(x)。
计算过程中收敛的准则为当选取的聚点,它的改变量的最大距离小于或等于初始聚点之间的最小距离乘以给定的某个数值ε。
即x(x)=xxx{x(x x(x),x x(x+1)),x=1,2,3}和x(0)=xxx{x(x x(0),x x(0)),x,x=1,2,3,x≠x}给定的ε>0,若x(x)<εx(0)则递推计算过程结束。
3.4 建立模型算法步骤(1)根据最小最大原则选取3个初始聚点;(2)将每个观察样本按就近原则分配给最近的初始聚点;(3)重新把每个聚集中的重心作为新的聚点;(4)不断重复上述(2),(3)过程直到聚点的变化足够小为止。
下面给出它的工作原理图。
图1 快速聚类法工作原理3.5 模型求解(1)运用最大最小原则找出3个初始聚点:由proc fastclus过程[3],得到计算结果:初始聚点如表3所示。
聚点1、2、3对应的样品号分别为60、21和77号,即初始聚点分别为21号、60号和77号样品。
(2)最终聚类中心如表4所示。
根据最终聚类中心的数据分析,其中一类品种的花瓣长度和宽度都是最小的且花萼的长度居中,花萼宽度为最宽,将这一类归为x1类;其中一类品种的花瓣长度和宽度都是最大的且花萼长度为最长,花萼宽度居中,将这一类归为x2类;其中一类品种的花萼长度和花萼宽度都是最小的且花瓣长度和宽度都是居中,将这一类归为x3类。
(3)最终聚类结果如表5所示。
结果分析:三个不同品种的鸢尾花的150个样本,其中51个样本属于x1类;另外有38个样本属于x2类;剩余的61个样本属于x3类。
而类与类之间的距离有助于分析两个类之间的接近程度,由表可知x2类与x3类之间的距离最小,为18.150,所以x2类与x3类最为相近[4]。
4 鸢尾花判别模型4.1 收集训练样本数据收集鸢尾属植物的三个不同品种的花的形状的数据作为训练样本,收集到的数据如表6所示。
收集三组新的鸢尾属植物数据作为待判样本,待判样本数据如表7所示。
表7 待判样本数据序号类型x1x2x3x41 待判53 37 15 22 待判67 30 50 173 待判63 33 60 254.2 模型假设1.本模型采用的数据均真实有效,并且是可操作的。
2.三个总体的协方差矩阵相等。
3.不考虑人为因素的影响。
4.3 建立模型因为收集的样本分为3个总体,所以采取多个总体的距离判别建立判别模型,设3个总体x 1,x 2,x 3的均值向量分别为x 1,x 2,x 3,协方差矩阵分别为Σ1,Σ2,Σ3.计算新样品x 到三个总体的马氏距离,比较这三个距离,将x 判定给马氏距离最小的总体。
若最小距离在不止一个总体达到,可以将x 判给任意一个具有最小距离的总体[5]。
前面假设3个总体协方差矩阵相等,即Σ1=Σ2=Σ3=Σ对于任意的两个总体x x ,x x ,x 到x x 和x x 的马氏平方距离的差x 2(x ,x x )−x 2(x ,x x )=−2[x x (x )−x x (x )]其中x x (x )=x x x x +x x ,而x x =Σ−1x x ,x x=−12x xx Σ−1x x x x (x )=x x x x +x x ,而x x =Σ−1x x ,x x=−12x x x Σ−1x x 从而x 2(x ,x x )≥x 2(x ,x x )⇔x x (x )≥x x (x )这样可以的到距离判别准则[6]:若总体x x 0满足x x 0(x )= max 1≤x ≤3x x (x )则判定x ∈x x 0;若多于一个x 0使得上式成立,则判定x 属于满足上式的任何一个x x 0。
当总体均值向量x 1,x 2,x 3,以及公共协方差矩阵Σ未知时,可以利用各个总体的训练样本作估计。
设x 1(x ),x 2(x ),⋯,x x x (x )是来自总体x x 的训练样本, x =1,2,⋯,x .记x x ̂=1x x∑x x (x )=x ̅̅̅(x ),x =1,2,⋯,x x xx =1x x =1x x −1∑(x x (x )−x ̅̅̅(x ))(x x (x )−x ̅̅̅(x ))xx xx =1,x =1,2,⋯,x由x x 可以得到Σ的一个联合估计为Σ̂=1x −x[(x 1−1)x 1+(x 2−1)x 2+(x 3−1)x 3]=S其中x =∑x x xx =1。