探索性因子分析及其在应用中存在的主要问题Ξ孙晓军ΞΞ 周宗奎(华中师范大学心理学院,武汉,430079)摘 要 探索性因子分析的发展非常迅速,已成为教育与社会心理学领域中最常用的统计方法之一。
本文全面介绍了探索性因子分析的基本原理,阐述了其发生的机制及基本过程,对其在教育、心理领域应用中存在的问题进行了总结,并针对应用中样本容量和观测变量数目不够、因子求解方法的误用、因子数目的确定标准及因子旋转中存在的问题、因子值缺乏重复验证性、研究结果呈现形式不规范、过于依赖SPSS 、缺乏主动性等问题提出了一些相应的建议。
关键词:探索性因子分析 因子旋转 因子值 因子分析(Factor Analysis )是通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量(因子)来表示基本的数据结构的方法[1]。
1904年,查尔斯・斯皮尔曼(Charles Spearman )在研究智力时首次采用了因子分析的方法,将因子分析方法运用于实践[2]。
随后,因子分析的理论和数学基础逐步得到发展和完善,特别是50年代以后,随着计算机的普及和各种统计软件的出现,因子分析得到了巨大的发展。
现在,因子分析已成为教育与社会心理学领域研究中最常用的统计方法之一。
但令人遗憾的是,在实际研究的应用中,研究者并不能合理、正确的使用这一方法,导致最后的研究结果缺乏可信度。
本文的目的就是通过对探索性因子分析发生原理、步骤的详细探讨,结合其在应用中存在的问题,希望对心理领域中探索性因子分析的运用提出一些实质性的建议,包括样本大小、因子数目、观测变量数目、因子旋转等等。
1 探索性因子分析的基本原理 探索性因子分析模型(见图1)的一般表达形式为:X 1=w 11F 1+w 21F 2+……w n1F n +w 1U 1+e 1其中,X n 表示观测变量,F M 代表因子分析中最基本的公因子(Common factor ),它们是各个观测变量所共有的因子,解释了变量之间的相关;U n 代表特殊因子(Unique factor ),它是每个观测变量所特有的因子,相当于多元回归分析中的残差项,表示该变量不能被公因子所解释的部分;w M 代表因子负载(Factor loading ),它是每个变量在各公因子上的负载,相当于多元回归分析中的回归系数;而e n 则代表了每一观测变量的随机误差。
图1 探索性因子分析模型(来源:郭志刚,1999) 探索性因子分析的过程实质就是寻求F 1、F 2、......F m等少数几个公因子以构建因子结构来最大限度地表示所有变量的信息[3]。
在探索性因子分析中,一个重要的假设就是所有的特殊因子间及特殊因子与公因子间是彼此独立、不相关的。
ΞΞΞ通讯作者:孙晓军,男。
E 2mail :sxj -ccnu @本研究得到国家自然科学基金资助,项目号30270473。
1440 心理科学 Psychological Science 2005,28(6):1440-14422 探索性因子分析的基本步骤2.1 研究设计因子分析中被试的数目一直是依据相应的观测变量的多少来确定的。
MacCallum等人(1999)[4]探讨了不同样本大小及不同变量公共方差情况下,所得的因子负载的精确程度,结果发现,如果观测变量的公共方差较高(0.60或更高),那么,即使被试人数很少(60名),因子负载的大小也是比较一致的;如果公共方差水平较低(0.50左右),那么100-200名被试将比较合适。
有些研究者研究则发现,在因子分析中,样本容量达到500为非常好,1000或更多则极好。
一般认为每个观测变量至少需要10名被试[5,6]。
同时,研究者认为,探索性因子分析中每个因子至少应包含4个或是更多的变量才能确保因子被有效的识别[5,7,8];也有研究者认为,观测变量的数目至少应该是公共因子的3-5倍[9];MacCallum等人(1999)[4]研究发现,如果每个因子含有的变量较多,那么排除变量的公共方差的影响之后,一定样本大小的因子分析中,因子分析的结果也会更精确;侯杰泰、成子娟(1999)[10]则建议,在小样本研究中,应尽量争取多一些题目,且不应将题目合成小组。
2.2 因子提取的个数及方法依据相关矩阵提取出因子之后,研究者就必须确定保留多少个因子才是有意义的或是重要的。
SPSS的缺省设置中,采用的是因子特征值≥1.0的标准,这一标准通常被称作K aiser标准。
特征值表示了一个因子所解释的方差数,其值等于因子负载的平方和。
研究者在实际研究中运用的最多的就是这种标准。
另一种取舍因子的标准是碎石检验法(Scree Test Criteri2 on)[11]。
SPSS程序中提供了碎石检验的曲线,一般认为,曲线变平开始前的一个点是提取的最大因子数,该点前的因子就是最后所提取的。
第三种标准是平行分析(Parallel Analysis)[12]。
实际这一方法只是碎石检验法的变异体,除了碎石检验中的散点图,该方法还增添了另一条特征值曲线,这些特征值取自相同变量和被试情况下的一组完全随机数据的因子分析结果。
当真实数据下的特征值小于随机数据特征值时,该点前的因子即为应提取的数目。
探索性因子分析最常用的提取因子的方法有两种:主成分分析法和主轴因子法。
主成分分析法和主轴因子法提取因子的程序基本相同,主要区别在于对观测变量公因子方差的估计不同。
在主成分分析法中,假定所有观测变量的方差都能被公因子所解释,即每个变量的公因子方差都为1.0。
而在主轴因子法中,它的基本假定是观测变量之间的相关能完全被公因子所解释,而变量的方差不一定完全被公因子所解释,所以,在主轴因子法中,公因子方差就不一定是1.0了。
2.3 因子旋转因子旋转的目的是为了便于理解和解释因子的实际意义,主要有两种方式:正交旋转(Orthogonal rotation)和斜交旋转(Oblique rotation)。
正交旋转的基本假定是,因子分析中被提取出来的因子之间是相互独立的,因子间并不相关。
它的目的是要获得因子的简单结构,即使每个变量在尽可能少的因子上有较高的负载;而斜交旋转中,因子间的夹角是任意的,也就是说斜交旋转对因子间是否相关并无限定,这种因子旋转的结果就会使各因子所解释的变量的方差出现一定程度的重叠,因此,比起正交旋转,斜交旋转更具有一般性。
2.4 计算因子值探索性因子分析中,研究者往往会用因子值来代表所提取的因子,因为因子值可以进行更深入的数据分析,这些因子值比起原始变量更有效、可靠,而且比起原始变量间的相关,因子值间相关较低。
值得注意的是,虽然因子值较可靠,但它实质上还是一种观测变量,也就是说它与因子或潜在变量并不完全一致,因此,使用这些因子值来进行的数据分析就会产生细微的随机误差。
3 EFA在教育、心理领域的应用中存在的主要问题及建议 作为一种重要而实用的数学统计方法,探索性因子分析的使用已越来越普遍。
国外学者做了一项相关的统计,结果表明,文献中使用这一方法的比例在不断增加,而且增长的速度也越来越快[3]。
而在国内,虽然总体上文献中探索性因子分析使用的频数并不高,但是这种增长的趋势和国外大体也是一致的[13]。
同时,探索性因子分析运用的领域也在不断的扩大,儿童社会技能[14]、同伴关系、人格发展模型、孤独感等情绪研究,包括心理学中各种行为量表的制定都广泛采用了探索性因子分析的方法。
虽然文献中使用探索性因子分析的比例不断增加,但遗憾的是,在实际研究的应用中,研究者并不能合理、正确的使用这一方法,导致最后的研究结果缺乏可信度。
回顾教育、心理领域中探索性因子分析的运用,主要存在以下一些问题。
3.1 样本容量、观测变量数目不够很多应用探索性因子分析的研究中,普遍存在的一个问题就是样本容量及观测变量数目太小。
探索性因子分析中,一般要求样本容量至少为100-200,当变量的公共方差较大时,则一定数目的小样本也能确保因子负载的稳定性[4]。
国内学者曾做过一项调查,结果表明:1991-2000年国内两种心理学期刊发表的运用因子分析的文章中,有近10%的文章研究样本小于100,甚至有多达50%的文章没有提供这一信息[13]。
而对于观测变量的数目,一般认为,观测变量与所提取的因子数目之比至少为4。
很多研究者认为观测变量的数目并不与被提取的因子数目相关联,因为研究者事先并不知道会有多少个因子被提取出来,因此,无法依据被提取的因子个数对观测变量的数目进行安排,但是,实际上很多研究者在因子分析前对所探讨的观测变量的因子结构已有了一定的预期[3]。
教育、心理领域中,存在着相当数量的研究并未达到这些标准[3,13]。
这或许是由于研究者对因子分析的要旨理解不深,但更有可能的是研究者对这类方法的细节重视不够。
3.2 因子提取方法的误用探索性因子分析中最常用的提取因子的方法主要有两种:主成分分析法和主轴因子法。
决定选用何种方法时,一般有两点值得考虑:一是因子分析的目的;二是对变量方差的了解程度[1]。
如果因子分析的目的是用最少的因子最大程度解释原始数据的方差,则应用主成分分析法;若因子分析的主要孙晓军等:探索性因子分析及其在应用中存在的主要问题1441目的是确定数据结构,则适合用主轴因子法。
实际上,虽然研究者大多认为主成分分析法和主轴因子法的结果差别不大[15,16,17],但是Widman(1993)[18]提出,主轴因子法使用复相关系数的平方作为公共方差的初始估计值,通过不断重复,最后得到确定的公共方差的值,所以,这一过程比起主成分分析法,因子负载就更准确。
因此,他建议研究者最好使用主轴因子法而不是主成分分析法。
但实际研究中,研究者大量使用的是主成分分析法,导致这一结果的最直接可能就是SPSS软件的缺省设置即为主成分分析法。
3.3 因子数目的确定标准及因子旋转中存在的问题心理领域中,研究者运用的确定因子数目的标准大多是K aiser法,即特征值≥1.0的标准。
SPSS中,缺省的提取因子方法就是K aiser法,但实际这一标准仅仅适用于主成分分析法[8]。
Fabrigar等人(1999)[7]提出,特征值≥1.0的标准通常会导致提取过多的因子。
当因子提取过多时,因子的重要性就值得怀疑了。
例如,假设有这样的案例,分别从5个变量和10个变量中提取因子,在5个变量的情况下,特征值为1.0的因子将解释变量总方差的20%(1/5,每个变量的方差估计为1,总方差即为5);相应地,在10个变量的情况下,同样特征值为1.0的因子只能解释总体方差的10%(1/10),显然,当从大量变量中提取因子时,使用这样的标准将导致所提取的因子只能解释总方差很小的一部分。
而碎石检验准则的主观性太强[19],并且,在有些情况下,因子的特征值并没有临界点,因为因子特征值是以一种线性的方式逐渐下降的,所以这种情况是可能存在的,例如双重负荷现象,因此,这种方法并没有太强的使用价值。