当前位置:文档之家› 多元统计分析方法

多元统计分析方法

多元统计分析概述目录一、引言 (3)二、多元统计分析方法的研究对象和主要内容 (3)1.多元统计分析方法的研究对象 (3)2.多元统计分析方法的主要内容 (3)三、各种多元统计分析方法………………………………… 3 1.回归分析………………………………………………… 3 2.判别分析 (6)3.聚类分析 (8)4.主成分分析 (10)5.因子分析 (10)6.对应分析方法 (11)7.典型相关分析 (11)四、多元统计分析方法的一般步骤 (12)五、多元统计分析方法在各个自然领域中的应用 (12)六、总结.................................................................. 13 参考文献.................................................................. 14 谢辞 (15)一、引言统计分布是用来刻画随机变量特征及规律的重要手段,是进行统计分布的基础和提高。

多元统计分析方法则是建立在多元统计分布基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。

在本文中,我们将对多元统计分析方法做一个大体的描述,并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。

二、多元统计分析方法的研究对象和主要内容(一)多元统计分析方法的研究对象由于大量实际问题都涉及到多个变量,这些变量又是随机变量,所以要讨论多个随机变量的统计规律性。

多元统计分析就是讨论多个随机变量理论和统计方法的总称。

其内容包括一元统计学中某些方法的直接推广,也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。

现实生活中,受多个随机变量共同作用和影响的现象大量存在。

统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。

一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。

但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太多,分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研究结论。

另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。

通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随机变量之间的相互关系。

所以,多元统计分析是研究多个随机变量之间相互依赖关系及内在统计规律的一门统计学科。

(二)多元统计分析方法的主要内容近年来,随着统计理论研究的不断深入,多元统计分析方法的内容一直在丰富。

其中,主要内容包括多元正态总体参数估计、假设检验和常用的多元统计方法。

多元正态总体参数估计、假设检验是多元统计推断的核心和基础,而常用的多元统计分析方法则是具体应用。

从形式上,常用多元统计分析方法可划分为两类:一类属于单变量常用的统计方法在多元随机变量情况下的推广和应用,如多元回归分析,典型相关分析等;另一类是对多元变量本身进行研究所形成的一些特殊方法。

如主成分分析,因子分析,聚类分析,判别分析,对应分析等。

三、各种多元统计分析方法具体来说,常用的多元统计分析方法主要包括:多元回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析等。

下面我们对各种多元统计分析方法就行分别描述,(一)回归分析回归分析是最灵活最常用的统计分析方法之一,它用于分析一个因变量与一个或多个自变量之间的关系。

特别是用于:(1)定量的描述和解释相互关系;(2)估测或预测因变量的值。

回归分析方法是在众多的相关变量中,根据实际问题考察其中一个或多个变量与其余变量的依赖关系。

如果只要考察一个变量与其余多个变量之间的相互依赖关系,我们称为多元回归问题。

若要同时考察多个因变量与多个自变量之间的 相互依赖关系,我们称为多因变量的多元回归问题。

多元回归分析是研究因变量 Y 与 m 个自变量 x 1,x 2,·,x m 的相关关系 ,而且总是假设因变量 Y 为随机变量,而 x 1,x 2,·,x m 为一般变量。

下面我们来看一下多元线性回归模型的建立。

假定因变量Y 与 x 1,x 2,·,x m 线性相关。

收集到的n 组数据 ( y t , x t 1, x t 2,L ,x tm )( t=1,2,··· n )满足以下回归模型: y t =+1x t 1 + ·+m x tm +t (t =1,2,L ,n )E (t )=0,Var (t )=2,Cov (i ,j )=0(i j )或t ~N (0,2),相互独立(t=1,2,Ln). 记1 x 11 K x 1mC=M O M =(1 M X ) 1 x n 1L x nmY = y1y 2 ,= 010,= 12则所建回归模型的矩阵形式为Y =C+,E()=0n ,D () =I n ,或Y =C +,~N n (0,2I n ), 并称它们为经典多元回归模型,其中 Y 是可观测的随机向量,是不可观测的随 机向量,C 是已知矩阵, ,2是未知参数,并设 n>m ,且 rank(C)=m+1。

在经典回归分析中,我们讨论模型中参数= (,1,L ,m )和2的估计和检 验问题。

近代回归分析中讨论变量筛选、估计的改进,以及对模型中的一些假设 进行诊断等问题。

我国国内生产总值与基本建设投资额的大小有密切关系,研究发现两变量之间存在线性关系。

根据甘肃省1990-2003 年的国内生产总值与基本建设投资额数据,研究它们的数量规律性,探讨甘肃省基本建设投资额与国内生产总值的数量关系,原始数据见下表。

年份GDP(亿元)基本建设投资(亿元)1990242.829.041991271.3933.961992317.7939.221993372.2442.891994451.6658.191995553.3562.621996714.18101.421997781.34121.741998869.75157.141999931.98187.492000983.36208.2820011072.51228.6320021161.43263.061304.6307.32003利用excel 进行分具体输出以下数平方和自由度方差 F 检验值回归1553189.711553189.7残差59475.667124956.3056313.3765001离差1612665.413复相关系数R =.981386594345333剩余标准差SY =70.4010340269248 回归方差与剩余方差之比 F =313.376500123223 各个自变量的t 检验值17.70244334t 检验的自由度N-P-1 =12F 检验的自由度第一自由度=1,第二自由度=12各个自变量的偏回归平方和1553189.7 各个自变量的偏相关系数0.981386594 由输出结果,得以下结论:回归方程为y=232.70+3.68 x其中,负相关系数为R2=0.9814,说明回归方程拟合优度较高。

而回归系数的t=17.7024,查 t 分布表t 0.025(12) = 2.1788 ,小于 t 值,因此回归系数显著。

查 F 分平方和自由度 方 差 F 检验值 回归 1553189.7 1 1553189.7 313.3765001残差 59475.667 12 4956.3056离差1612665.413(二)判别分析一种在已知研究对象用某种方法已经分成与若干类的情况下,确定新的样品属于 哪一类的多元统计分析方法。

判别方法处理问题时,通常通常要给出用来衡量新样品与各已知组别的接近 程度的指数,即判别函数,同时也指定一种判别准则,借以判别新样品的归属。

所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。

常用的有,距离准则、Fisher 准则、贝叶斯准则等。

距离判别的基本思想是:样 品和那个总体距离最近,就判断它属于哪个总体。

距离判别也称直观判别。

已知有两个类G 1和G 2,比如G 1是设备 A 生产的产品,G 2是设备 B 生产的 同类产品。

设备A 的产品质量高(如考察指标为耐磨度X ),其平均耐磨度(1)=80, 反映设备精度的方差12 =0.25;设备 B 的产品质量稍差,其平均耐磨度 2 =75, 反映设备精度的方差22=4。

今有一产品 X 0,测得耐磨度x 0=78,试判断该产品 是哪一台设备生产的?下面考虑一种相对于分散性的距离。

记X 0 与G 1或G 2的相对平均距离为 d 12(x 0)或d 22(x 0),则有:d 12(x 0)=(x0-2 )= (78-80) =16,0.25因为d 2(x 0)=1.5<4=d 1(x 0),按这种距离准则应判X 0为设备B 生产的。

一般的,我们假设总体G 1的分布为 N ((1),12),总体G 2的分布为N ((2),22),则利用相对距离的定义,可以找出分界点和(不妨设 (2)<(1),1<2 ), 令(x -(1))2= (x -(2))2x =(1)2+(2)1d =ef,和x=(1)2-(2)1d =ef 121+2 2-1d 22(x 0)=(x 0-2(2))22(78-75)24.00=2.25。

此例中,=79,=81.6667。

而按这种距离最近法则的判别法为:1222判X G 2,当(x -2(1))2(x -2(22))2(即x或x)为了区分小麦品种的两种不同的分蘖类型,用 x 1,x 2,x 3三个指标求其判别函 数。

经验样品中,第一类取11(主茎型)个样品,第二类(分蘖型)取12 个样 品,X (1)-X (2)=(-0.2742,-0.882,-4.7096)T ,0.5624 0.1821 0.8355 0.2821 15.5160 32.3014 0.8355 32.3014 126.23741.7978 -0.0169 -0.0076S -1 = 21L -1 = 21 -0.0169 0.1381 -0.0076 -0.0352 0.0170(X )= 1(X (1)-X (2))T S -1(X -X )(x -(1))2 (x -(2))2判X G 1,当(x -)(x -)(即x )12x1x 2 x 3 判别归类1 0.71 3.80 12.00 1 第2 0.78 3.86 12.17 1 一3 1.00 2.10 5.70 1 类4 0.70 1.70 5.90 1 (5 0.30 1.80 6.10 1 主6 0.60 3.40 10.20 1 茎7 1.00 3.60 10.20 1 型8 0.50 3.50 10.50 1 )9 0.50 5.00 11.50 1 10 0.714.00 11.25 1111.00 4.5012.002(1)xi0.7091 3.3873 9.7746x1x 2x 3 判别归类1 1.00 4.25 15.162 第 2 1.00 3.43 16.25 2 二 3 1.00 3.70 11.40 2 类4 1.00 3.80 12.40 2 (5 1.00 4.00 13.60 2 分6 1.00 4.00 12.80 2 蘖7 1.00 4.20 13.40 2 型8 1.00 4.30 14.00 2 )9 1.00 5.70 15.80 2 10 1.00 4.70 20.40 2 11 1.00 4..60 14.00 212 1.00 4.56 14.60 2(2)xi0.98 4.27 14.4842X =X (1) + X (2)2= (0.8462,3.8287,12.1293) L = L(1)+ L (2)xx xx xx-0.0352= 21(-0.4425,0.0486, -0.0468)用( X )对经验样本的 23个样品进行判别有如下结果:第一类的11 个样本中有10 个判别为第一类,一个判别为第二类;第二类的12 个样品全部判别为第二类, 符合率为 22/23=96%。

相关主题