当前位置:文档之家› 多元统计分析方法

多元统计分析方法

多元统计分析概述目录一、引言 (3)二、多元统计分析方法的研究对象和主要内容 (3)1.多元统计分析方法的研究对象 (3)2.多元统计分析方法的主要内容 (3)三、各种多元统计分析方法 (3)1.回归分析 (3)2.判别分析 (6)3.聚类分析 (8)-4.主成分分析 (10)5.因子分析 (10)6. 对应分析方法 (11)7. 典型相关分析 (11)四、多元统计分析方法的一般步骤 (12)五、多元统计分析方法在各个自然领域中的应用 (12)六、总结 (13)参考文献 (14)谢辞 (15)(一、引言统计分布是用来刻画随机变量特征及规律的重要手段,是进行统计分布的基础和提高。

多元统计分析方法则是建立在多元统计分布基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。

在本文中,我们将对多元统计分析方法做一个大体的描述,并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。

二、多元统计分析方法的研究对象和主要内容(一)多元统计分析方法的研究对象由于大量实际问题都涉及到多个变量,这些变量又是随机变量,所以要讨论多个随机变量的统计规律性。

多元统计分析就是讨论多个随机变量理论和统计方法的总称。

其内容包括一元统计学中某些方法的直接推广,也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。

现实生活中,受多个随机变量共同作用和影响的现象大量存在。

统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。

一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。

但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太多,分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研究结论。

另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。

通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随机变量之间的相互关系。

所以,多元统计分析是研究多个随机变量之间相互依赖关系及内在统计规律的一门统计学科。

(二)多元统计分析方法的主要内容近年来,随着统计理论研究的不断深入,多元统计分析方法的内容一直在丰富。

其中,主要内容包括多元正态总体参数估计、假设检验和常用的多元统计方法。

多元正态总体参数估计、假设检验是多元统计推断的核心和基础,而常用的多元统计分析方法则是具体应用。

从形式上,常用多元统计分析方法可划分为两类:【一类属于单变量常用的统计方法在多元随机变量情况下的推广和应用,如多元回归分析,典型相关分析等;另一类是对多元变量本身进行研究所形成的一些特殊方法。

如主成分分析,因子分析,聚类分析,判别分析,对应分析等。

三、各种多元统计分析方法具体来说,常用的多元统计分析方法主要包括:多元回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析等。

下面我们对各种多元统计分析方法就行分别描述,(一)回归分析回归分析是最灵活最常用的统计分析方法之一,它用于分析一个因变量与一个或多个自变量之间的关系。

特别是用于:(1)定量的描述和解释相互关系;(2)估测或预测因变量的值。

回归分析方法是在众多的相关变量中,根据实际问题考察其中一个或多个变量与其余变量的依赖关系。

如果只要考察一个变量与其余多个变量之间的相互依赖关系,我们称为多元回归问题。

若要同时考察多个因变量与多个自变量之间的相互依赖关系,我们称为多因变量的多元回归问题。

多元回归分析是研究因变量Y 与m 个自变量12···m x x ,,,x 的相关关系 ,而且总是假设因变量Y 为随机变量,而12···m x x ,,,x 为一般变量。

下面我们来看一下多元线性回归模型的建立。

假定因变量Y 与12···m x x ,,,x 线性相关。

收集到的n 组数据(12,,,t t t tm y x x x ,)(t=1,2,···n )满足以下回归模型:({11022···+(1,2,,)()0,(),(,)0()~(0,),t t m tm t t t i j t y x x t n E Var Cov i j N βββεεεσεεεσ=+++====≠或相互独立(t=1,2,n).记C=11111(1)1m n n nm x x X xx ⎛⎫⎪= ⎪ ⎪⎝⎭, 011212,,n m n y y y Y βεβεβεβε⎡⎤⎡⎤⎡⎤===⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦则所建回归模型的矩阵形式为{2()(),0,,n n Y C E D I εεβεσ=+==或{2,~(0,),n n Y C N I βεεσ=+并称它们为经典多元回归模型,其中Y 是可观测的随机向量,ε是不可观测的随机向量,C 是已知矩阵,2βσ,是未知参数,并设n>m ,且rank(C)=m+1。

在经典回归分析中,我们讨论模型中参数01(,,,)m ββββ'=和2σ的估计和检验问题。

近代回归分析中讨论变量筛选、估计的改进,以及对模型中的一些假设进行诊断等问题。

我国国内生产总值与基本建设投资额的大小有密切关系,研究发现两变量之间存在线性关系。

根据甘肃省1990-2003年的国内生产总值与基本建设投资额数据,研究它们的数量规律性,探讨甘肃省基本建设投资额与国内生产总值的数量|平方和自由度方差 F 检验值回归1残差,12离差13~复相关系数R =.98剩余标准差SY =回归方差与剩余方差之比 F =@各个自变量的t 检验值17.。

t 检验的自由度N-P-1 =12F 检验的自由度-第一自由度=1,第二自由度=12各个自变量的偏回归平方和:各个自变量的偏相关系数、由输出结果,得以下结论: 回归方程为 y=+1x其中,负相关系数为2R =,说明回归方程拟合优度较高。

而回归系数的t=,查t 分布表0.025(12) 2.1788t =,小于t 值,因此回归系数显著。

查F 分布表,0.05(1,12)F =,判别分析是多元统计分析中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成与若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。

判别方法处理问题时,通常通常要给出用来衡量新样品与各已知组别的接近程度的指数,即判别函数,同时也指定一种判别准则,借以判别新样品的归属。

所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。

常用的有,距离准则、Fisher 准则、贝叶斯准则等。

距离判别的基本思想是:样品和那个总体距离最近,就判断它属于哪个总体。

距离判别也称直观判别。

已知有两个类1G 和2G ,比如1G 是设备A 生产的产品,2G 是设备B 生产的同类产品。

设备A 的产品质量高(如考察指标为耐磨度X ),其平均耐磨度(1)μ=80,反映设备精度的方差21σ=;设备B 的产品质量稍差,其平均耐磨度2μ=75,反映设备精度的方差22σ=4。

今有一产品0X ,测得耐磨度0x =78,试判断该产品是哪一台设备生产的下面考虑一种相对于分散性的距离。

记0X 与1G 或2G 的相对平均距离为210()d x 或220()d x ,则有:210()d x =(1)22021()(7880)0.25x μσ--==16, 220()d x =(2)22022()(7875)4.00x μσ--==。

因为20()d x =<4=10()d x ,按这种距离准则应判0X 为设备B 生产的。

一般的,我们假设总体1G 的分布为(1)21(,)N μσ,总体2G 的分布为(2)22(,)N μσ,则利用相对距离的定义,可以找出分界点μ*和μ*(不妨设(2)μ<(1)μ,1σ<2σ),令(1)(2)(1)2(2)221221212()()x x x μσμσμμσσσσ+--=⇒=+def =μ*,和x=(1)(2)2121μσμσσσ--def=μ*。

此例中,μ*=79,μ*=。

而按这种距离最近法则的判别法为:)(1)2(2)212212(1)2(2)222212()()X ()()X x x G x x x G μμμμσσμμμμσσ****--∈<<<--∈≥≤≥⎧⎪⎨⎪⎩判,当(即)判,当(即x 或x )为了区分小麦品种的两种不同的分蘖类型,用123,,x x x 三个指标求其判别函数。

经验样品中,第一类取11(主茎型)个样品,第二类(分蘖型)取12个样{(1)X -(2)X =,,)T , X =(1)(2)2X X += ,, xx L =(1)xx L +(2)xx L =0.56240.18210.83550.282115.516032.30140.835532.3014126.2374⎡⎤⎢⎥⎢⎥⎢⎥⎣⎦, 111.79780.01690.007621210.01690.13810.03520.00760.03520.0170xx S L ----⎡⎤⎢⎥==--⎢⎥⎢⎥--⎣⎦,(1)(2)11()()()2T X X X S X X ω-=--=1230.846221(0.4425,0.0486,0.0468) 3.8286212.1295x x x -⎡⎤⎢⎥---⎢⎥⎢⎥-⎣⎦用()X ω对经验样本的23个样品进行判别有如下结果:第一类的11个样本中有10个判别为第一类,一个判别为第二类;第二类的12个样品全部判别为第二类,符合率为22/23=96%。

例如,第一类第一个样品(1)1X =(0.71,3.80,12.00)T ,则(1)1()X ω=>0,则(1)1X 1G ∈(第一类)。

又如,第一类的第11个样品(1)11X =(1.00,4.50,12.00)T ,(1)11()X ω=<0,故(1)11X 2G ∈(第二类)。

将()X ω投入使用,可判别小麦品种的分蘖类型,如测得某小麦品种11x =,2 3.43x =,316.25x =,则由()X ω=<0判别该品种为分蘖型。

(三) 聚类分析聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法。

聚类分析时,用来描述样品或变量的亲疏程度通常有来两个途径,一是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定一点与点,类和类之间的距离,用点与点间距离来描述样品或变量之间的亲疏程度:另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲属程度。

-聚类分析是实用多元统计分析的一个新的分支,聚类分析的功能是建立一种分类方法,他将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类。

相关主题