当前位置:文档之家› 多元统计分析重点

多元统计分析重点

多元统计分析重点宿舍版第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析多元统计分析方法选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型第二讲:计算均值、协差阵、相关阵;相互独立性第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。

主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。

(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。

依次类推,原来有P 个变量,就可以转换出P 个主成分(3)在实际应用中,为了简化问题,通常找能够反映原来P 个变量的绝大部分方差的q (q<p )个主成分。

主成分性质:1)性质1:主成分的协方差矩阵是对角阵:(2)性质2:主成分的总方差等于原始变量的总方差(3)性质3:主成分Yk 与原始变量Xi 的相关系数为:ρ(YK,Xi )=√λ√σiitki,并称之为因子负荷量(或因子载荷量)。

主成分分析的具体步骤:①将原始数据标准化;②建立变量的相关系数阵;③求的特征根为**10p λλ≥≥≥,相应的特征向量为***12,,,p T T T ;④由累积方差贡献率确定主成分的个数(m ),并写出主成分为**()i i Y T '=X ,1,2,,i m =第四讲:因子分析定义,因子载荷统计意义,因子分析模型及假设,因子旋转因子分析定义:因子分析就是通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子的多元统计方法。

因子载荷统计意义: 1.因子载荷ija 的统计意义对于因子模型1122i i i ij j im m iX a F a F a F a F ε=++++++ 1,2,,i p =我们可以得到,iX 与jF 的协方差为:1Cov(,)Cov(,)mi j ik k i j k X F a F F ε==+∑=1Cov(,)Cov(,)mik k j i j k a F F F ε=+∑=ija如果对iX 作了标准化处理,iX 的标准差为1,且jF 的标准差为1,因此,Cov(,)Cov(,)i j X F i j ijX F r X F a === (7.6)那么,从上面的分析,我们知道对于标准化后的iX ,ija 是iX 与jF 的相关系数,它一方面表示iX 对jF 的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量iX 对公共因子jF 的相对重要性。

了解这一点对我们理解抽象的因子含义有非常重要的作用。

2.变量共同度2i h 的统计意义设因子载荷矩阵为A ,称第i 行元素的平方和,即2211,2,,miij j h a i p===∑ (7.7)为变量iX 的共同度。

由因子模型,知2221122()()()()()i i i im m i D X a D F a D F a D F D ε=++++22212()i i im i a a a D ε=++++22i i h σ=+ (7.8)这里应该注意,(7.8)式说明变量iX 的方差由两部分组成:第一部分为共同度2i h ,它描述了全部公共因子对变量iX 的总方差所作的贡献,反映了公共因子对变量iX 的影响程度。

第二部分为特殊因子i ε对变量i X 的方差的贡献,通常称为个性方差。

如果对iX 作了标准化处理,有221i i h σ=+ (7.9) 3、公因子jF 的方差贡献2jg 的统计意义设因子载荷矩阵为A ,称第j 列元素的平方和,即2211,2,,pjij i g a j m===∑为公共因子jF 对X 的贡献,即2jg 表示同一公共因子jF 对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。

因子分析模型及假设数学模型:每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:Xi=ai1*F1+a12*F2+…+aim*Fm+εi (i=1,2,…,p)式中的F1,F2,…Fm 称为公共因子,εi 称为Xi 的特殊因子。

该模型可用矩阵表示为:X=AF+ε,且满足:(1)m ≤p(2)Cov(F,ε)=0,即公共因子与特殊因子是不相关的;(3)DF=D(F)=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡1...0,0,0....0...0,1,00...0,0,1=Im,即各个公共因子不相关且方差为1;(4)D ε=D(ε)=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡σσσ22221...0,0,0....0...0,,00...0,0,p ,即各个特殊因子不相关,方差不要求相等。

因子旋转因子旋转的目的:初始因子的综合性太强,难以找出因子的实际意义,因此需要通过坐标旋转,使因子负荷两极分化, 要么接近于0,要么接近于∓1,从而降低因子的综合性,使其实际意义凸现出来,以便于解释因子。

因子旋转的基本方法:一类是正交旋转(保持因子间的正交性,3种,常用最大方差旋转),一类是斜交旋转(因子间不一定正交)公共因子提取个数:(1)选特征值大于等于1的因子(主成分)作为初始因子,通过求响应的标准化正交特征向量来计算因子载荷(2)碎石图:删去特征值变平缓的那些因子(3)累计方差贡献率大于85%第五讲:聚类类型,系统聚类、K-均值聚类思想及步骤,系统聚类方法,相似性测度方法聚类类型:根据分类的对象可将聚类分析分为:系统Q 型与R 型(即样品聚类与变量聚类)系统聚类、K-均值聚类思想及步骤:①系统聚类的基本思想:距离相近的样本(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

②聚类过程及步骤:假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n-1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n-2类;…,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。

最后可以画谱系图分析。

③快速聚类的基本思想,步骤:(也称为K-均值法,逐步聚类,迭代聚类),基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法步骤如下:(1)将所有的样品分成K个初始类;(2)通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算重心坐标。

(3)重复步骤2,直到所有的样品都不能再分配时为止。

系统聚类方法:最短距离法(单连接),最长距离法(完全连接),中间距离法,类平均法(组间平均连接法),可变类平均法,重心法,可变法,离差平方和法相似性测度方法:不同样本相似性度量:距离测度里包括:明氏,马氏,和兰式不同变量相似度的度量:包括:夹角余弦,相关系数。

第六讲:判别分析及各判别方法思想,判别分析假设条件,距离判别与贝叶斯判别关系判别分析定义:一种进行统计判别和分组的技术手段。

它可以就一定数量案例的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间的数量关系,建立判别函数(discriminant Function )。

然后便可以利用这一数量关系对其他已知多元变量信息、但未知分组类型所属的案例进行判别分组。

各判别方法思想:①距离判别:求新样品X 到G 1的距离与到G 2的距离之差,如果其值为正,X 属于G 2;否则X 属于G 1 ②Bayes 判别:由于k 个总体出现的先验概率分别为kq q q ,,,21 ,则用规则R 来进行判别所造成的总平均损失为∑==ki i R i r q R g 1),()(∑∑===k i kj i R i j P i j C q 11),|()|( (4.12)所谓Bayes 判别法则,就是要选择,使得(4.12)式表示的总平均损失)(R g 达到极小。

③Fisher 判别的基本思想和步骤:从K 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数:U(X)=X pXp X X '...2211μμμμ=+++,其中系数μ=(μ1,μ2,…,μp )’确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。

有了线性判别函数后,对于一个新的样品,将它的p 个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。

判别分析假设条件:判别分析的假设之一,是每一个判别变量(解释变量)不能是其他判别变量的线性组合。

即不存在多重共线性问题。

判别分析的假设之二,是各组变量的协方差矩阵相等。

判别分析最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合。

在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。

判别分析的假设之三,是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。

在这种条件下可以精确计算显著性检验值和分组归属的概率。

当违背该假设时,计算的概率将非常不准确。

距离判别与贝叶斯判别关系:距离判别中两个总体的距离判别规则为:12,()0,()0G W G W ∈≥⎧⎨∈<⎩X X X X 如果如果,而贝kG G G ,,,21 kR R R ,,,21叶斯判别规则为:⎩⎨⎧<∈≥∈dV G d V G )(,)(,21x x x x 当当,二者唯一差别仅在于阀值点,从某种意义上讲,距离判别是贝叶斯判别的特殊情形。

题型及分数:一、判断对错并改正(4题,8分) 二、不定项选择(10题,20分) 三、简答题(4题,32分) (六选四)主成分基本思想,系统聚类,K-均值聚类基本思想及过程,判别分析及费希尔基本思想,比较聚类与回归、判别,因子分析及因子旋转聚类与回归、判别:①判别与回归:联系:都是根据已有数据判别未来趋势。

相关主题