第4章 探索式因素分析在社会与行为科学研究中,研究者经常会搜集实证性的量化资料來做验证,而要证明这些资料的可靠性与正确性,则必须依靠测量或调查工具的信度或效度(杨国枢等,2002b )。
一份好的量表应该要能够将欲研究的主题构念(Construct ,它是心理学上的一种理论构想或特质,无法直接观测得到)清楚且正确的呈现出来,而且还需具有「效度」,即能真正衡量到我们欲量测的特性,此外还有「信度」,即该量表所衡量的结果应具有一致性、稳定性,因此为达成「良好之衡量」的目标,必须有以下两个步骤:第一个步骤是针对量表的题项作项目分析,以判定各项目的区别效果好坏;第二步骤则是建立量表的信度与效度。
量表之项目分析、信度检验已于第2、3章有所说明,本章将探讨量表之效度问题。
4-1 效度效度即为正确性,也就是测量工具确实能测出其所欲测量的特质或功能之程度。
一般的研究中最常使用「内容效度」(Content Validity )与「建构效度」(Construct Validity )来检视该份研究之效度。
所谓「内容效度」,是指该衡量工具能足够涵盖主题的程度,此程度可从量表内容的代表性或取样的适切性来加以评估。
若测量内容涵盖所有研究计划所要探讨的架构及内容,就可说是具有优良的内容效度。
在一般论文中,常使用如下的描述来「交代」内容效度:而所谓「建构效度」系指测量工具的内容,即各问项是否能够测量到理论上的构念或特质的程度。
建构效度包含收敛效度(Convergent Validity )与区别效度(Discriminant Validity ),收敛效度主要测试以一个变量(构念)发展出的多项问项,最后是否会收敛于一个因素中(同一构念不同题目相关性很高);而区别效度为判别问项可以与其它构念之问项区别的程度(不同构念不同题目相关性很低)。
衡量收敛效度的统计方式可使用探索式因素分析法(Exploratory factor analysis),简称因素分析。
进行因素分析时,若发现各构念的衡量项目皆可收敛于同一个共同因素之下,则表示该量表的收敛效度是可被接受的。
至于区别效度,则可采用因素分析与皮尔森相关分析,首先,必须在因素分析法中,各构念的衡量项目皆没有与其它构念的衡量项目收敛于同一个共同因素之下,此外,在皮尔森相关系数矩阵中,不同构念的衡量项目彼此之间关联性很低,如皮尔森系数皆小于0.3,若出现上述两现象显示不同构念的衡量项目间彼此皆不具有强烈的关连性,据此,即可显示出区别效度是可以被接受的。
进行量表之建构效度评估时,虽理应同时检视收敛效度与区别效度,然审视国内之硕士论文或一些期刊论文都可发现,大部分都只以因素分析进行收敛效度之评估,并据以说明量表的建构效度,其方法如:同一构念中,若因素负荷量的值愈大(通常取0.5以上者才保留该项目,否则删除后再重新执行一次因素分析),表示收敛效度愈高。
此外,也可使用属线性结构方程(Linear Structural Equation)领域的验证性因素分析(Confirmatory Factor Analysis),以进行模式的适合度检定,并检定各构念是否具有足够的收敛效度与区别效度。
4-1因素分析的意义因素分析(Factor Analysis)属于多元统计分析技术的一种,其主要目的是浓缩数据。
它透过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想的变量来表示其基本的数据结构。
这些假想变量能够反映原来众多的观测变量所代表的主要信息,并解释这些观测变量之间的相互依存关系,我们把这些假想变量称之为基础变量,即因素(Factors)。
因素分析就是研究如何以最少的信息遗失,而能把众多的观测变量浓缩为少数几个因素。
一般在对实际问题做研究时,研究者往往希望尽可能地多多收集与研究主题相关的变量,以期能针对问题有比较全面性的、完整性的掌握和认识。
虽然收集这些数据需投入许多的人力、物力与时间成本,虽然它们能够较为整体而精确地描述研究主题,但将这些资料实际用在分析、建模时,这些变量未必能真正发挥研究者预期的作用,也就是说研究者的「投入」和「产出」并非呈合理的正比,相反的,这样的搜集资料行为反而会给研究者于统计分析时带来许多问题,这些问题如下:■计算量的问题由于研究者所收集的变量相当多,如果这些变量都投入数据的分析与建模,无疑的,这将会增加分析过程中于计算上的工作量。
虽然,目前计算机运用普遍且其计算能力亦相当优异,然而对于此种高维的变量和庞大的数据仍是于计算上所不容忽视的。
■变数间的相关性问题由于研究者针对特定之主题所收集到的诸多变量之间通常或多或少都会存在着相关性。
也就是说,变量之间往往具有信息的高度重迭性和高度相关性,这些特质将会给统计方法的应用带来许多不便。
例如,在多元线性回归分析中,如果这些众多的解释变量之间,存在着较强且显着的相关性,即存在着高度的多重共线性,那么于回归方程的参数估计时,将带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。
为解决上述的问题,最简单且最直接的解决方法即是精减变量之个数,但是这又必然会导致信息的漏失和信息不完整等现象产生,这是一个Trade-off的问题。
为此,研究者无不希望探索一种更有效的解决方法,期盼它既能大大减少参与数据分析、建模的变量个数,也同时不会造成信息的大量漏失。
而因素分析正是这样一种能够有效降低变量维数(个数),并已得到广泛应用的分析方法。
因素分析是由心理学家所发展出来的,最初心理学家借助因素分析模型来解释人类的行为和能力,1904年Charles Spearman在美国心理学杂志上发表了第一篇有关因素分析的文章,在往后的三四十年里,因素分析的理论和数学基础理论逐步获得发展和改善,也因此,这个统计分析工具逐渐被人们所认识和接受。
50年代以来,随着计算机的普及和各种统计软件的出现,因素分析在社会学、经济学、医学、地质学、气象学和市场营销等越来越多的领域得到了应用。
因素分析以最少的信息漏失为前提,试图将众多的原始变量综合成较少几个综合指标,这些综合指标即名为因素(factor)。
一般而言,因素具有以下几个特点:■因素个数远少于原始变量的个数原始变量综合成少数几个因素后,因素将可以替代原始变量参与数据建模,这将大大减少分析过程中的计算工作量。
■因素能够反映原始变量的绝大部分信息因素并不是原始变量的简单取舍,而是原始变量重组后的结果,因此不会造成原始变量信息的大量遗失,并能够代表原始变量的绝大部分信息。
■因素之间的线性关系不显着由原始变量重组出来的因素之间的线性关系较弱,因素参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。
■因素具有命名解释性通常,因素分析产生的因素能够透过各种方式最终获得命名解释性。
因素的命名解释性有助于对因素分析结果的解释评价,对因素的进一步应用有重要意义。
例如,对高校科研情况的因素分析中,如果能够得到两个因素,且其中一个因素是对科研人力投入、经费投入、立项项目数等变量的综合,而另一个是对结项项目数、发表论文数、获奖成果数等变量的综合,那么,该因素分析就是较为理想的。
因为这两个因素均有命名可解释性,其中一个反映了科研投入方面的情况,可命名为科研投入因素,另一个反映了科研产出方面的情况,可命名为科研产出因素。
总之,因素分析是研究如何以最少的信息遗失将众多原始变量浓缩成少数几个因素,如何使因素具有一定的命名解释性的多元统计分析方法。
4-2 因素分析的数学模型因素分析的核心价值在于它能使用较少且相互独立的因素来反映原始变量的绝大部分信息。
由于任何一个变量都可以透过x xx z σ-= (x 为x 的平均数,x σ为x 标准差)的转换而变成标准化变量,经标准化后的变量并不会改变原始变量之间的相关系数,也就是说不失其一般性。
在此我们所讨论的变量都是标准化变量。
设原有p 个变数p x x x ,,,21 且每个变量的平均数为0,标准差均为1。
现将每个原始变数用)(p k k <个因素k f f f ,,,21 的线性组合来表示,即:113132121111u f a f a f a f a x k k +++++=223232221212u f a f a f a f a x k k +++++=333332321313u f a f a f a f a x k k +++++=(4-1)… p k pk p p p p u f a f a f a f a x +++++= 332211式(4-1)就是因素分析的数学模型,此模型在型式上和多元回归模型很相似,也可用矩阵的型式表示为U AF X +=。
其中F 称为因素,由于它们出现在每个原始变量的线性表达式中,因此又称为共同因素(Common factors ),它们是各个原始变量所共同拥有的因素,解释了变量之间的相关程度。
因素也可被想象成是高维空间中互相垂直的k 个坐标轴。
A 称为因素负荷矩阵,ij a 称为因素负荷(Factor loading ),它是第i 个原始变数在第j 个因素上的负荷,相当于多元回归分析中的标准回归系数。
U 称为特殊因素(Unique factor ),它是每个原始变量所特有的因素,相当于多元回归中的残差项,它表示了原始变量不能被因素所解释的部分,其平均数为0。
因素分析模型中假设p 个特殊因素之间是彼此独立的,特殊因素和共同因素之间也是彼此独立的。
此外该模型中,每一个原始变量都是由k 个共同因素和一个特殊因素的线性组合来表示,而我们所感兴趣的只是这些能够代表较多信息的共同因素,因此往后如果没有特殊说明的话,本书中所经常提到的因素一词,实际上所指的就是共同因素。
共同因素的个数最多可以等于原始变量的数量。
因为在求因素解时,通常都会使第一个因素之代表性最高(即拥有最多的信息),之后的其它因素之代表性日益衰减,因此,如果忽略掉最后几个因素,则对原始变量的代表性也不会有什么损失。
所以,因素分析模型中,共同因素的个数,往往远远小于原始变量的个数。
如果把特殊因素当作是残差项看待,那么因素分析模型和多元线性回归模型在型式上非常相近,他们都是用其它变量的线性组合加上一个残差项来表示一个变量,但是回归模型中的自变量是可观测的,而因素分析模型中的因素是假想变量,是不可观测的,这就使得它有别于一般的线性模型。
4-3 因素分析的相关概念因素分析之数学模型中蕴藏着几个重要的相关概念,搞懂这些概念不仅有助于因素分析之意义的理解,更有利于明暸因素与原始变量间的关系、因素的重要程度以及辅助评估因素分析的效果。
为了进一步了解该模型所蕴含的意义,下面我们将讨论因素分析中常用的几个统计量。
■ 因素负荷因素负荷可说是因素分析模型中最重要的一个统计量,它连接了原始变量和共同因素。