当前位置:文档之家› 回归分析与因子分析之比较

回归分析与因子分析之比较

回归分析与因子分析之比较刘婷玉 数学与统计学院06级【摘 要】回归分析与因子分析是数理统计中常用的两种数据处理方法,本文对他们进行比较,分析了两种方法的区别与联系,各自的使用和适用范围,对教学质量的提高及在实际中对于有效选择此两种统计方法提供了依据。

【关键词】回归分析 因子分析 比较一、 问题提出回归分析和因子分析都是研究因变量与因子间关系的一种数据处理方法,在模型上看,只是因子结构不一样,他们之间到底有什么内在联系,值得我们研究并加以利用。

二、 问题分析1、统计模型和类型多元线性回归模型表示方法为iki k i i i ki i i i k k u X b X b X b b Y ni X X X Y n u X b X b X b b Y +++++==+++++= 221102122110,,2,1),,,,(得:个样本观测值其解析表达式为:⎪⎪⎩⎪⎪⎨⎧+++++=+++++=+++++=n kn k n n n k k k k u X b X b X b b Y u X b X b X b b Y u X b X b X b b Y 2211022222121021121211101多元模型的矩阵表达式为⎪⎪⎪⎪⎪⎭⎫ ⎝⎛+⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛u u u b b b b X X X XX X XX X Y Y Y n k kn k k nnn2121021222211121121111 ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=+=u u u b b b b X XX XX X XX XY Y Y n k kn k k nnn U B X Y U XB Y2121021222211121121111一般地,设X=(x1, x2, …,xp)’为可观测的随机变量,且有im im i i i i e f a f a f a X +⋅+⋅⋅⋅+⋅+⋅+=2211μ 。

在因子分析中,p 维的变量向量x 被赋予一个随机结构,x =α+Af+ε具体也可以写成以下形式:1111122112211222221122m m m m p p p pm m px a f a f a f x a f a f a f x a f a f a f μεμεμε-=++++-=++++-=++++ (1)其中α是p 维向量,A 是p ×r 参数矩阵,f 是r 维潜变量向量,称为公共因子(Common factors),而ε是p维的变量向量,称为特殊因子(Specific factors),满足下列假定:E(ε) =0,cov(ε) =Δ(对角矩阵)E(f) =0,cov (f,ε)=0,cov(f) =I (2) 它把每个变量分解为两部分,一部分是由这些变量内含的公共因子所构成的,即公共因子部分,另一部分是每个变量各自独有的因子,即所谓特殊因子部分。

应当注意,因子模型不具有唯一性,设T是一个正交矩阵,由I'可知,因子模型x =α+Af+ε与模型x =αTT+(AT)(T′f)+ε等价。

后者载荷矩阵为AT,新的公共因子T′f。

正是由于因子模型的不唯一性,所以当原模型不适合专业解释时,则作一个正交变换T,把原模型改变为新模型,在新模型中再去寻找因子的专业解释,这就为因子旋转提供了理论的基础。

由两者的比较可知,两种模型都是用某几个因子来解释变量的,只是因子构成不一样,回归分析的因子之间可能存在相关关系,但是后者却是独立的。

回归分析模型写成了原观测变量的线性组合,因子分析是描述原指标X协方差阵结构的一种模型,对原观测变量分解成公共因子和特殊因子两部分,当公共因子的个数m=原变量个数p 时,就不能考虑特殊因子了,此时因子分析也对应于一种线性组合了,饿而且因子模型的系数矩阵表明了原变量和公共因子的相关程度。

2、目的和作用回归分析是为了分析一个变量如何依赖其它变量而提出的一种统计分析方法,它的目的是要确定引起因变量变化的各个因素,多元线性回归是研究一个因变量(Y)和多个自变量(Xi)之间数量上相互依存的线性关系。

利用回归分析可以进行因素分析、调整混杂因素和统计预测。

因子分析是用于研究个体测量指标的协方差(或相关)结构的探索性数据分析的多元技术。

它找出若干可以解释可观测指标之间的变差或者联系的潜变量从而简化高维数据,并对相似指标进行分组及检测多重共线性,将高维数据在低维空间中图示以利于直观考察数据的分布情况及检测异常值。

目标是通过减少变量的个数来了解数据的结构,在某种意义上可以取代原始数据,而且通过图示和多元推断技术更容易进行研究。

它就是用少数几个有意义因子来描述多个指标或因素之间的联系,与此同时,又能保存住原有数据结构所提供的大部分信息,这样就可以找出潜在的特征。

其目的为化简数据、浓缩信息、探讨内在结构,也就是说将分散在多个变量中的同类信息集中起来、提纯,从而便于分析、解释和利用。

同样是因变量和因子之间的关系,但是回归分析却能得出确切的数值关系,而且通常是定量的(不过对定性因素可以采用虚拟变数的处理方法)。

但因子分析一般适用于定性的,不可观测的数据。

不过,回归分析的关系不精简明了,而且确定的因子也是根据人为经验事先定好的,不如因子分析的全面,可能还得做逐步回归等才能剔除或增加变量。

3、适用原则首先,回归分析和因子分析使用的数据不一样。

回归分析同时需要因子和因变量的数据,数据结构为因变量和因子对应的顺序数据,即{n i X Y i i ,,2,1, =}。

而因子分析只需要在不同情况下对应的因变量的值,无需知道X 的确切数值,只要根据调的数值就行了,也即这种方法可以揭示因子内部的关系。

其次,样本容量的要求也不同。

回归分析最小样本容量 n ≥k+1。

对Y X X X B ''=-1)(ˆ ,有(X`X)-1存在⇔| X`X | ≠0 ⇔ X`X 为k+1阶的满秩阵,R(AB) ≤ min(R(A),R(B)),R(X) ≥ k+1,因此,必须有n ≥k+1。

根据经验,有①n ≥ 30或者n ≥ 3(k+1)才能满足模型估计的基本要求。

②n ≥ 3(k+1)时,t 分布才稳定,检验才较为有效。

根据Gromuch(1983)的观点,因子分析的样本量要求如下:一般原则是要求样本数目至少是变量个数的五倍,能有一比十的比例是较可被接受的,有些研究建议观察值个数为变量个数的二十倍;总样本最好应有100个或以上的观察值,通常不要少于50个观察值。

最后,模型假设也有不同之处: 在回归分析中,有如下假设:① 解释变量 Xi 是确定性变量,不是随机变量;解释变量之间互不相关,即无多重共线性。

② 随机误差项具有0均值和同方差。

③ 随机误差项不存在序列相关关系。

④ 随机误差项与解释变量之间不相关。

⑤ 随机误差项服从0均值、同方差的正态分布。

在因子分析中,假定:① 公共因子的均数为0,方差为1。

②特殊因子的均数为0,方差为δi ,且特殊因子互不相关。

③公共因子与特殊因子相互独立。

由比较可知,两种分析方法在两类因子的相关性上有相似之处,差别主要在于回归分析中的随机误差项要求服从0均值、同方差的正态分布。

4、模型的解ij R 回归分析应用最小二乘估计,其矩阵表示如下:它具有①线性(估计量都是被解释变量观测值的线性组合)②无偏性(估计量的数学期望=被估计的真值)③有效性(估计量的方差是所有线性无偏估计中最小的)而因子分析有若干种方法① 主成分法(principal component factor )m j p i l a ji j ij ,,2,1;,,2,1, ===λ每一个公共因子的载荷系数之平方和等于对应的特征根,即该()()1ˆ0ˆ0ˆˆˆˆ2ˆˆ)ˆˆˆˆ()ˆ)(ˆ()ˆ()ˆ(ˆˆˆ),0(~ˆˆˆ2112122--'=''=='+'-=∂∂''+''-'=''='''+''-'-'=-''-'=-'-='=-=-=-==+==-==∑∑k n ee YX X X B BX X Y X BQB X X B Y X B Y Y Y X B BX Y B X X B Y X B B X Y Y Y B X Y X BY Q B X Y B X Y e e B X Y YY E y y Q N U UXB Y B X Yn i ii ni i e σσ?为什么公共因子的方差。

212i pi ij jg a ==∑=λ。

② 主因子法(principal factor )设原变量的相关矩阵为R=(ij r ),其逆矩阵为R-1=(ij r )。

各变量特征方差的初始值取为逆相关矩阵对角线元素的倒数,ii i r /1'=δ。

则共同度的初始值为∑==mj ij a h 1221。

③ 极大似然法(maximum likelihood factor )假定原变量服从正态分布,公共因子和特殊因子也服从正态分布,构造因子负荷和特殊方差的似然函数,求其极大,得到唯一解。

由上可知,因子载荷的统计意义是第i 个变量与第j 个公共因子的相关系数,表示i X 依赖巧的份量(比重)。

统计中应称为权。

现称载荷,表示第i 个变量在第j 个因子上的负荷,反映了第i 个变量在第j 个因子上的相对重要性。

另外,回归的系数是唯一确定的,而因子模型的系数矩阵不唯一,且该矩阵表明了原变量和公共因子的相关程度。

差阵的特征值所对应的特征向量。

某解释变量前回归系数的含义是,在其他解释变量保持不变的条件下,该变量变化一个单位,被解释变量将平均发生偏回归系数大小的变动。

另外,因子分析中的载荷矩阵是不可逆的,只能通过可观测的原变量去估计不可观测的公共因子,ij b 是因子载荷矩阵中的元素,是第i 变量Xi 与第j 个公共因子j Z 的相关系数,即表示i X 依赖j Z 的份量,是第i 变量在第j 个公共因子上的负荷,它反映了第i 变量在第j 个公共因子上的相对重要性。

j ε是第j 个原观测变量的特殊因子,且此处的i X 与j Z 的均值都为0,方差都为1。

5、 效果检验对多元线性回归可作如下平方和分解:回归方程的总体检验:(),01221MSEMSR =F :1H 021:0H H F F kn yy ky y kn SSE k SSR FFk H 否则接收则拒绝④如果计量③根据样本资料计算统②据给定的都为零并非所有的①*〉--∑-∑-∧=--=*⇒====⎪⎭⎫ ⎝⎛αββββ回归系数的检验:()()[]()0,0F F 1/,2,11/1,2,1,2,1=F FF 0k :1H 0:0H H H kn k X X X SSE k X X X SSR k X X X SSR k 否则接收则拒绝④如果③计算统计量②据给定的①*〉----*⇒≠= αββ而对于因子分析而言,是没有统计检验的,只是在模型中各个量的统计意义上有所表现:(1)特征根(Eigenvalue), (H.Kaiser)所谓特征值,是指每一行因子负荷量平方加总后之总和,表示该因子能解释全体变异的能力。

相关主题