当前位置:
文档之家› 距离判别法在鸢尾花亚属类型判定中的应用初探
距离判别法在鸢尾花亚属类型判定中的应用初探
0.04 ⎤
− 0.22⎥⎥ ,
− 0.09⎥ ⎥
0.62 ⎦
⎡0.19
B = CC T = 30⎢⎢0.06 ⎢0.39 ⎢ ⎣0.22
0.06 0.02 0.12 0.07
0.39 0.12 0.77 0.45
0.22⎤
0.07⎥⎥
, W
0.45⎥
⎥ 0.26⎦
⎡22.63
=
B
+ Lxx
=
⎢ ⎢
ln
L(2) xx
= 2.17 , W
= 798.15 ,lnW
= 6.68 , B
= 6.1 × 10 −40 ,
n1=30,n2=30,n=60,N1=29,N2=29,N=58,g=2,p=4,
− 2 ln λ'3 = 58(ln 6.53 − 4 ln 58) + 232 ln 29 − 29(ln 4.3 + ln 2.7) = −123.08 ,
距离判别是将待判样本 X=(x1, x2, x3, x4)T 到各总体 Gi (i=1、2、……、k)的距离远近作 为判据的一种直观判别方法。而判别分析的方法也有很多,并且每种方法都有其自己的特点。 相对于 Fisher 判别和贝叶斯判别等方法,距离判别法具有操作简单,对数据要求较少,适用 范围广。但是在一般的应用中,很少涉及其判别函数的显著性检验和错判率的分析,仅在《实 用判别分析》(孙尚拱和潘恩沛编著,1990)一书中有简单叙述,即利用霍特林 T2 统计量 通过 F 检验对判别进行统计学意义分析和利用刀切估计法对错判率进行分析。
X
(2)
)S
−
1(X
− X)=
1 (−4.31,−9.10,8.49,18.32)⎢⎢x2
− 2.92⎥⎥ 。
2
2
⎢x ⎢
3
−
4.95⎥ ⎥
⎣x4 − 1.69⎦
用ω(X)对典型样本群体的 60 个样本进行回判,根据判别法则:若ω(X)≥0,则 X∈G1; 若ω(X)<0,则 X∈G2,故有如下判别结果(详见表 1):virginica 亚属(即 G1 类)的 30 个 样本全部判别为 G1 类,而在 versicolor 亚属(即 G2 类)中的 30 个样本中有 29 个判别为 G2 类,仅有一个样本被判为 G1 类(见表 1 中加粗并下划线的ω(X)值),回判结果符合率为 59/60=98.33%,高于 80%。因此,该判别函数ω(X)可以用于对未知的 40 个样本进行亚属的 判定。
距离判别法在鸢尾花亚属类型判定中的应用初探
XX※
单位,地址,邮编
摘要:判别分析是多元统计分析中判断个体所属类型的一种重要方法。本文主要利用马氏距 离判别方法,依据鸢尾花 virginica 和 versicolor 亚属中典型个体的不同性状特征(花萼和花 瓣的长度和宽度),对未知鸢尾花个体进行所属类型的判别分析,为距离判别法在鸢尾属分 类中的应用奠定基础和鸢尾花的亚属判定提供统计学依据。 关键词:马氏距离判别法、鸢尾花、亚属类型
⎢ ⎣
1.12
0.91
0.98
1.44
⎥ ⎦
⎢⎣2.01 1.72 2.24 1.37⎥⎦
⎡0.31
30 ⎢⎢0.10 ⎢0.62 ⎢ ⎣0.36
− 0.31⎤
− 0.10⎥⎥ ,
− 0.62⎥ ⎥
− 0.36⎦
⎡22.44
Lxx
=
L(1) xx
+
L(1) xx
=
⎢ ⎢
6.25
⎢15.58
⎢ ⎣ 3.13
通过计算得到这 40 个未知亚属样本的ω(X)值,根据判别法则进行亚属判定,判定结果 为各有 20 个样本分别属于 virginica 和 versicolor 亚属,详细结果见表 2。
3. 讨论
从文中的判别函数的回判符合率可知,依据 Fisher 鸢尾花数据集所建立两总体的判别函 数具有很好的准确度,这一结果表明能够依据鸢尾花的花萼和花瓣的长度和宽度建立判别函 数对其亚属类型进行判定,这为未知鸢尾花的亚属类型判定以及其分类学地位提供了统计学 上的理论依据和发展思路。但是鸢尾花的亚属除了这两类,还有其他很多类亚属,并且其亚 属在分类学上划分指标远不止花萼和花瓣的长度和宽度这四项,因此本文中所建立的判别方 法并不能在全面的准确的判定某一鸢尾花的所属亚属,还需要扩大其亚属总体数目和采用更 多典型的性状指标。在鸢尾花不同亚属和性状指标的涵盖面广且具典型性的情况下建立判别 方法和实现的判定结果才是最为准确有效。综上所述,本文中所建立的判别函数仅适用于某 一鸢尾花在是否归属 virginica 或 versicolor 亚属的问题上,才能够凭借花萼和花瓣的长度和 宽度等简单的四个性状值进行快速准确的判定。
⎡14.21 3.23 10.51 1.12⎤
⎡8.23 3.02 5.07 2.01⎤
L(1) xx
=
⎢ ⎢
3.23
⎢10.51
2.69 2.68
2.68 10.17
0.91⎥⎥ ,
0.98⎥
L(2) xx
=
⎢⎢3.02 ⎢5.07
3.53 2.81
2.81 5.20
1.72⎥⎥ ,C
2.24⎥
=
聚类和判别是各领域科研生产活动中经常涉及的问题。判别分析是用于判断样品所属类 别的一种应用性很强的统计方法, 并已渗透到各个科学领域,该方法通常从各训练样本中提 取已有的各总体的信息, 构造一定的判别准则, 判断新样品属于哪个总体(潘海泽,2009)。 常用的判别分析方法有距离判别分析,Fisher 判别分析,贝叶斯判别分析和逐步判别分析等。 其中,距离判别分析法是根据观测到的样本的若干数量特征对新获得的样本进行归类、识别, 判别其所属类型的一种统计分析方法。该方法由英国统计学家 Pearson 在 1921 年首先提出, 其主要思想是比较样本到各个总体的马氏距离,然后将其判给马氏距离最近的那个总体; 目 前,该方法已在各个领域得到广泛应用。其中距离判别的基本思想是: 样品距哪个总体距离 最近, 就判它属于哪个总体(黄利文,2011)。距离判别分析中采用的距离有欧氏距离和马 氏距离。在判别分析中,由于欧氏距离没有考虑总体分布的分散性信息,因此很多的距离判 别分析都采用由印度统计学家马哈诺必斯(Mahalanobis)于 1936 年提出的马氏距离。
6.31
⎢15.97
⎢ ⎣ 3.35
6.31 6.24 5.61 2.70
15.97 5.61 16.14 3.67
3.35⎤
2.70⎥⎥ ,
3.67⎥ ⎥
3.07⎦
Lxx
= 684.69 ,ln Lxx
= 6.53 ,
L(1) xx
=
73.96
,
ln
L(1) xx
=
4.30
,
L(2) xx
= 8.75 ,
鸢尾属花卉属于鸢尾科, 是一类具有较高观赏价值的多年生草本植物。但是国内外对鸢 尾属的分类系统较繁杂,比如国内普遍分为 6 个亚属(黄苏珍,2003)。1935 年,埃德加· 安德森(Edgar Anderson)从加拿大加斯帕半岛上的鸢尾属花朵中提取的地理变异数据 (Anderson, E.,1935),并在统计学上形成了一类多重变量分析的 Fisher 鸢尾花数据集。其 数据集包含了 50 个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾( Iris setosa)、变色 鸢尾(Iris versicolor)和维吉尼亚鸢尾(Iris virginica)。每个样本含有四个特征,它们分别 是花萼和花瓣的长度和宽度,这些特征可被用作样本的定量分析。基于这四个特征的集合, 罗纳德·费雪(Ronald Aylmer Fisher)作为判别分析的一个例子,发展了一个线性判别分析 以确定其属种(Fisher, R.A,1936)。由此,该数据集被广泛运用到统计学中。
2.2.2 数据计算及分析 首先对 2 个总体进行协方差阵和均值向量显著性检验。
通过计算可得到: X (1) = (6.67,3.01,5.58,2.05)T , X (2) = (6.05,2.82,4.33,1.34)T ,
X
=
(1)
X
+
(2)
X
= (6.36,2.92,4.95,1.69)T ,
参考文献
1. Edgar Anderson. The irises of the Gaspé Peninsula. Bulletin of the American Iris Society. 1935, 59: 2–5. 2. Fisher, R.A.. The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics. 1936, 7: 179–188. 3. 黄利文.改进的距离判别分析法.江南大学学报(自然科学版),2011,10(6):745-748
2.2.1 参数设置 设总体样本 Gi ~N3(0 μi,Σ),其中 G1 为 virginica 亚属 ,G2 为 versicolor 亚属,G1=X (1)=(x1, x2, x3, x4)T(其中 x1 为花萼长度,x2 为花萼宽度,x3 为花瓣长度,x4 为花瓣宽度),G2=X (2)=(x1, x2, x3, x4)T。计算未知样本 X=(x1, x2, x3, x4)T 到各总体 Gi (i=1、 2)的距离分别为马氏距离 di2。
由于 − 2ρ ln λ'4 <18.3274,故接受 H0:μ(1)=μ(2),Σ(1)=Σ(2)。
第2页共5页
综上所述,检验结果表明两总体的协方差阵和均值向量间没有显著差异。因此可以采用
两总体正态同协方差阵情形的判别方法进行下一步判别分析。