Bayes 判别分析及应用 班级:计算B101姓名:孔维文 学号201009014119 指导老师:谭立云教授 【摘 要】判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方
法,在社会生产和科学研究上应用十分广泛。在判别分析之前,我们往往已对各总体有一定了解,样品的先验概率也对其预测起到一定作用,因此进行判别时应考虑到各个总体出现的先验概率;由于在实际问题中,样品错判后会造成一定损失,故判别时还要考虑到预报的先验概率及错判造成的损失,Bayes判别就具有这些优点;然而当样品容量大时计算较复杂,故而常借助统计软件来实现。本文着重于Bayes判别分析的应用以及SPSS的实现。 论文共分三部分。首先简单地介绍了判别分析的意义、主要应用及SPSS的优点;其次详细讲解了Bayes判别分析理论,举例说明利用SPSS实现Bayes判别分析的操作及结果分析;最后,在09年统计年鉴收集到“各地区农村居民家庭平均每人生活消费支出”数据资料,研究各地区经济发展程度说明Bayes判别分析在经济学方面的应用。 【关键词 】 判别分析 Bayes判别 Spss实现 判别函数 判别准则
Class: calculation B101 name: KongWeiWen registration number 201009014119 Teacher: TanLiYun professor .【Abstract】Discriminant analysis is based on the study of certain indicators of individual observations to infer that the individual belongs as a type of statistical methods in social production and scientific research is widely used. In discriminant analysis, we often have a certain understanding of the overall sample of the a priori probability of its prediction play a role, it should be taken into account to determine the overall emergence of various prior probability; because of practical problems, samples will result in some loss of miscarriage of justice, so identification must be considered when the prior probability and wrongly predicted loss, Bayes discriminant to have these advantages; However, when the sample is large computing capacity of more complex, often using statistical software Guer to achieve. This article focuses on the application of Bayes discriminant analysis, and implementation of SPSS. Thesis is divided into three parts. First, a brief overview of the significance of 山东轻工业学院2010届本科生毕业论文 1 discriminant analysis, the main applications and advantages of Spss; followed by detailed explanation of the Bayes discriminant analysis theory, an example implementation using Spss Bayes discriminant analysis and results of operations; finally, in the 2009 Statistical Yearbook of the collected " all areas of life of rural residents per capita household consumption expenditures "data, the study of the extent of economic development shows Bayes discriminant analysis applications in economics. 【Key words】 Discriminant analysis; Bayes discriminant; Spss achieve; Discriminant function; Criteria;
1.1.1 判别分析的概念 在科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一种类型都是用一些指标TpXXXX),,(21来表
征的,即不同类型的X的观测值在某种意义上有一定的差异。当得到一个新样品(或个体)的关于指标X的观测值时,要判断该样品(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。也就是说,判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。 判别分析的目的是得到体现分类的函数关系式,即判别函数。基本思想是在已知观测对象的分类和特征变量值的前提下,从中筛选出能提供较多信息的变量,并建立判别函数;目标是使得到的判别函数在对观测量进行判别其所属类别时的错判率最小。 判别函数的一般形式是:1122nnYaxaxax. 其中,Y为判别函数判别值;nxxx,,,21为反映研究对象特征的变量;naaa,,,21
为各变量的系数,即判别系数。常用的判别法有距离判别法、Fisher判别法和Bayes判别法。 用统计语言来描述判别分析,就是已知有g个总体gGGG,,,21(每个总体iG可
认为是属于iG的指标TpXXXX),,,(21取值的全体),它们的分布函数
)(,),(),(21xFxFxFg均为p维函数,对于任一给定的新样品关于指标X的观测值
Tpxxxx),,,(21,我们要判断该样品应属于这g个总体中的哪一个。
1.1.2 判别分析的应用及意义 判别分析的应用十分广泛。例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入、人均工农业产值、人均消费水平等指标判断一个国家、某个省市经济发展程度所属的类型;在考古研究中,根据挖掘的古人头盖骨的容量、周长等判断此人的性格;在地质勘探中,根据某地的地质结构、化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,山东轻工业学院2010届本科生毕业论文 2 医生要根据某病人的化验结果和病情征兆判定病人患哪一种疾病,等等。值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或基本不了解的复杂问题,如果样品的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。 在实际应用中,通常由取自各总体的关于指标X的样本为该总体的代表,该样本称为训练样本,判别分析即提取训练样本中各总体的信息以构造一定的准则来决定新样品的归属感。训练样本往往是历史上对某现象长期观察或者是用昂贵的试验手段得到的,因此对当前的新样品,我们自然希望将其指标中的信息同各总体训练样本中的信息作比较,使可在一定程度上判定新样品的所属类型。概括起来,下述几方面体现了判别分析的重要意义。 第一,为未来的决策和行动提供参考。例如,以前对一些公司在破产前两年观测到某些重要的金融指标值。现在,要根据另一个同类型公司的这些指标的观测值,预测该公司两年后是否将频临破产的危险,这便是一种判别,其结论可以帮助该公司决策人员及早采取措施,防止将来可能破产的结局。 第二,避免产品的破坏。例如,一只灯泡的寿命只有将它用坏时才能得知;一种材料的强度只有将它压坏时才能获得。一般地,我们希望根据一些非破坏性的测量指标,便可将产品分出质量等级,这也要用到判别分析。 第三,减少获得直接分类信息的昂贵代价。例如在医学诊断中,一些疾病可用代价昂贵的化验或手术得到确诊,但通常人们往往更希望通过便于观测的一些外部症状来诊断,以避免过大的开支和患者不必要的损伤。 第四,在直接分类信息不能获得的情况下可用判别分析。例如,要判断某未署名的文学作品是否出自某已故作家之手,很显然,我们不能直接去问他。这是可以用判别分析方法在一定程度上判定该署名作品是否由该作家所作。 从以上例子也可以清楚地看出,如果不是利用直接明确的分类信息来判断某新样品的归属问题,难免会出现误判的情况,判别分析的任务是依据训练样本所提供的信息,建立在某种意义下最优(如误判概率最小或误判损失最小)的准则来判定一个新样品属于哪一个总体。
2.1 Bayes判别分析的前提假设 在介绍具体判别方法前首先来看判别分析的假设条件。这一点非常重要,如果数据不满足分析的前提条件,分析的结果是值得怀疑的。 (1)各个判别变量服从正态分布,由各个判别变量的联合分布是多元正态分布。只有在这个条件下,我们才可以进行有关的显著性检验。 (2)各判别变量不能存在多重共线性。这样变量组成的矩阵将不存在逆,判别分析的计算不能进行。