当前位置:文档之家› Bayes 判别分析及应用 201009014119

Bayes 判别分析及应用 201009014119

Bayes 判别分析及应用班级:计算B101姓名:孔维文 学号201009014119指导老师:谭立云教授【摘 要】判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法,在社会生产和科学研究上应用十分广泛。

在判别分析之前,我们往往已对各总体有一定了解,样品的先验概率也对其预测起到一定作用,因此进行判别时应考虑到各个总体出现的先验概率;由于在实际问题中,样品错判后会造成一定损失,故判别时还要考虑到预报的先验概率及错判造成的损失,Bayes 判别就具有这些优点;然而当样品容量大时计算较复杂,故而常借助统计软件来实现。

本文着重于Bayes 判别分析的应用以及SPSS 的实现。

【关键词 】 判别分析 Bayes 判别 Spss 实现 判别函数 判别准则Class: calculation B101 name: KongWeiWen registration number 201009014119Teacher: TanLiYun professor.【Abstract 】Discriminant analysis is based on the study of certain indicators of individual observations to infer that the individual belongs as a type of statistical methods in social production and scientific research is widely used. In discriminant analysis, we often have a certain understanding of the overall sample of the a priori probability of its prediction play a role, it should be taken into account to determine the overall emergence of various prior probability; because of practical problems, samples will result in some loss of miscarriage of justice, so identification must be considered when the prior probability and wrongly predicted loss, Bayes discriminant to have these advantages; However, when the sample is large computing capacity of more complex, often using statistical software Guer to achieve. This article focuses on the application of Bayes discriminant analysis, and implementation of SPSS.【Key words 】 Discriminant analysis; Bayes discriminant; Spss achieve; Discriminantfunction; Criteria;1.1.1 判别分析的概念在科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一种类型都是用一些指标T p X X X X ),,(21 来表征的,即不同类型的X 的观测值在某种意义上有一定的差异。

当得到一个新样品(或个体)的关于指标X 的观测值时,要判断该样品(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。

也就是说,判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。

判别分析的目的是得到体现分类的函数关系式,即判别函数。

基本思想是在已知观测对象的分类和特征变量值的前提下,从中筛选出能提供较多信息的变量,并建立判别函数;目标是使得到的判别函数在对观测量进行判别其所属类别时的错判率最小。

判别函数的一般形式是:1122n n Y a x a x a x =+++ .其中,Y 为判别函数判别值;n x x x ,,,21 为反映研究对象特征的变量;n a a a ,,,21 为各变量的系数,即判别系数。

常用的判别法有距离判别法、Fisher 判别法和Bayes 判别法。

用统计语言来描述判别分析,就是已知有g 个总体g G G G ,,,21 (每个总体i G 可认为是属于i G 的指标T p X X X X ),,,(21 =取值的全体),它们的分布函数)(,),(),(21x F x F x F g 均为p 维函数,对于任一给定的新样品关于指标X 的观测值T p x x x x ),,,(21 =,我们要判断该样品应属于这g 个总体中的哪一个。

1.1.2 判别分析的应用及意义判别分析的应用十分广泛。

例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入、人均工农业产值、人均消费水平等指标判断一个国家、某个省市经济发展程度所属的类型;在考古研究中,根据挖掘的古人头盖骨的容量、周长等判断此人的性格;在地质勘探中,根据某地的地质结构、化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判定病人患哪一种疾病,等等。

值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或基本不了解的复杂问题,如果样品的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。

在实际应用中,通常由取自各总体的关于指标X 的样本为该总体的代表,该样本称为训练样本,判别分析即提取训练样本中各总体的信息以构造一定的准则来决定新样品的归属感。

训练样本往往是历史上对某现象长期观察或者是用昂贵的试验手段得到的,因此对当前的新样品,我们自然希望将其指标中的信息同各总体训练样本中的信息作比较,使可在一定程度上判定新样品的所属类型。

概括起来,下述几方面体现了判别分析的重要意义。

第一,为未来的决策和行动提供参考。

例如,以前对一些公司在破产前两年观测到某些重要的金融指标值。

现在,要根据另一个同类型公司的这些指标的观测值,预测该公司两年后是否将频临破产的危险,这便是一种判别,其结论可以帮助该公司决策人员及早采取措施,防止将来可能破产的结局。

第二,避免产品的破坏。

例如,一只灯泡的寿命只有将它用坏时才能得知;一种材料的强度只有将它压坏时才能获得。

一般地,我们希望根据一些非破坏性的测量指标,便可将产品分出质量等级,这也要用到判别分析。

第三,减少获得直接分类信息的昂贵代价。

例如在医学诊断中,一些疾病可用代价昂贵的化验或手术得到确诊,但通常人们往往更希望通过便于观测的一些外部症状来诊断,以避免过大的开支和患者不必要的损伤。

第四,在直接分类信息不能获得的情况下可用判别分析。

例如,要判断某未署名的文学作品是否出自某已故作家之手,很显然,我们不能直接去问他。

这是可以用判别分析方法在一定程度上判定该署名作品是否由该作家所作。

从以上例子也可以清楚地看出,如果不是利用直接明确的分类信息来判断某新样品的归属问题,难免会出现误判的情况,判别分析的任务是依据训练样本所提供的信息,建立在某种意义下最优(如误判概率最小或误判损失最小)的准则来判定一个新样品属于哪一个总体。

2.1 Bayes 判别分析的前提假设在介绍具体判别方法前首先来看判别分析的假设条件。

这一点非常重要,如果数据不满足分析的前提条件,分析的结果是值得怀疑的。

(1)各个判别变量服从正态分布,由各个判别变量的联合分布是多元正态分布。

只有在这个条件下,我们才可以进行有关的显著性检验。

(2)各判别变量不能存在多重共线性。

这样变量组成的矩阵将不存在逆,判别分析的计算不能进行。

(3)每个变量在各类中的取值应存在显著性差异。

只有在这个假设下才能通过变量建立有效地判别函数将各类区分出来。

2.2 Bayes 判别的基本思想Bayes 统计是现代统计学的重要分支,其基本思想[1]是:假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验分布来描述这种认识,然后给予抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断均基于后验分布进行。

将Bayes 统计的思想用于判别分析,就得到Bayes 判别方法。

用统计的语言来描述Bayes 判别分析[2]: 已知有g 个p 维总体g G G G ,,,21 (每个总体i G 可认为是属于i G 的指标g X X X X ,,,21 =取值的全体),它们的先验概率分别为g q q q ,,,21 (他们可由经验给出也可以估计出),显然应有),,2,1(0g i q i =≥且11=∑=gi iq。

各总体分别具有互不相同的p 维密度函数()x f x f x f g ,),(),(21 (在离散情形是概率函数),在观测到一个样本x 的情形下,可用著名的Bayes 公式计算它来自第k 总体的后验概率(相对先验概率来说,将它又称为后验概率):∑==gi i ik k x f qx f q x k P 1)()()/( g k ,,2,1 = (2-2-1)并且当 )/(max )/(1x k P x h P gk ≤≤= 时,则判X 来自第h 个总体.有时还可以使用错判损失最小的概念作判别函数。

这时把x 错判归第h 总体的平均损失定义为()k h L x f qx f q x h E hk gi i ik k /)()()/(1⋅=∑∑≠= (2-2-2)其中)/(k h L 称为损失函数。

它表示本来是第k 总体的样品错判为第h 总体的损失。

显然上式是对损失函数依概率加权平均或称为错判的平均损失。

当k h =时,有)/(k h L =0,当k h ≠时,有)/(k h L >0.建立判别准则为如果 )/(min )/(1x k E x h E gk ≤≤= ,则判x 来自第h 个总体.原则上说,考虑损失函数更为合理,但是在实际应用中)/(k h L 不容易确定,因此常常在数学模型中就假设各种错判的损失皆相等,即⎩⎨⎧=10)/(x k L k h k h ≠= (2-2-3) 这样一来,寻找h 使后验概率最大和使错判的平均损失最小是等价的,即min )/(max )/(−→−⇔−→−hh x h E x h p2.3 两正态分布的Bayes 判别[6]2.3.1马氏 (Mahalanobis ) 距离和判别函数设G 是p 维总体,数学期望为μ,协方差矩阵为∑,p 维样本x 到总体G 的马氏距离定义为211)]()[(ˆ),(μμ--=∑-x x G x d T (2-3-1)设1G ,2G 为不同的两个p 维总体,数学期望分别为1μ和2μ,协方差矩阵分别为1∑和2∑, 考察样品x 到两总体的马氏距离的平方差,并根据式(1)可得2/)(,)()(2),(),(212111222μμμμμμ+=--=-∑-T x G x d G x d (2-3-2))(x W 为判别函数, 令∑--=-)()()(211μμμT x x W (2-3-3)2.3.2 Bayes 判别函数设21,G G 为两个不同的p 维正态总体,这时其概率密度为2,1,)()(21exp )2()(1212=⎭⎬⎫⎩⎨⎧-∑--∑=---i x x x f i i T i ip i μμπ (2-3-4)其中i μ和i ∑(2,1=i )为两总体的均值向量和协方差矩阵,i ∑表示矩阵i ∑的行列式(2,1=i )。

相关主题