因子分析和聚类分析方法及应用
以“深圳地区移动通信市场研究”为例来说明以上两种分析方法。
一.因子分析
本次研究中主要将因子分析方法用于:根据被访者对网络选择重要性、生活方式评价和手机购买动机的回答,归结出从被访人群中反映出的主要因素,并以这些因素为依据进行下一步的旨在将人群分类的聚类分析。
(一)因子分析方法所涉及的主要名词解释
在此仅结合网络选择考虑因素为例对主要名词作一解释:
1.因子:从形式上看,是一组原始变量的线性组合,而反映的内容则是我们所关心问题的某一个方面
例如:因子1(注重网络功能)=0.79×有传真信箱功能+0.76×有多方
通话功能+0.67×有语音信箱功能+0.66×有短消息功能+0.63×有呼叫
限制功能+l1×开户限制少+l2×营业员专业水平高+……
以上表达式中的0.79、0.76、……0.63以及l1等系数,我们称之为因子负
荷。
2.因子负荷:因子负荷体现了原始变量与因子之间的相关性,它亦是归结因子含义的关键所在;
如上例所述因子1的注重网络功能这一含义正是根据因子负荷较大的几个
原始变量或要素的含义概括而成,即由在网络选择时希望有传真信箱功
能、有多方通话功能、有语音信箱功能等各项功能概括出因子1反映的是
用户在选择网络时注重网络功能这一方面的考虑,而象开户限制少、营业
员专业水平高等原始变量或要素在上述表达式中所具有的因子负荷相对
很小,便不把它们作为归纳这一因子含义的要素包括进去。
3.因子得分:如果一个被访者回答了所有原始变量对应的问题,那么利用该被访者在与问题对应的原始变量上的取值及某一因子的表达式(如因子1
的表达式)计算而得的他在这一因子上的取值,就是我们通常所说的因子
得分。
上例中某一被访者在因子1上的因子得分体现了他对网络功能的重
要性考虑。
注:由于统计方法的原因,这一得分的计量与原始变量取值的计量有所不
同,简单的说,与因子对应的变量是一个平均值为0,方差为1的标准化
变量,即因子1的取值(因子1的因子得分)几乎全部集中在[-3,3]这一区
间内,而超出这个范围的可能性仅占不到0.3%。
(二)因子分析方法的基本思想
1.因子分析的目的
进行数据信息的综合提炼,即将分散的关于细节问题的琐碎信息整理成为
一组能反映若干方面状况的概要信息,进而将与细节问题对应的原始变量
替换为经归纳总结后得到的因子所对应的因子变量,并在进一步的分析过
程中使用这一组因子变量而非多个原始变量。
例如:在本报告的市场细分过程中,就是利用从67个关于网络选择考虑
的细节问题中提取出的21个诸如注重网络功能、注重服务质量等方面因
子所对应的变量来实施的聚类分析过程,并借助这些变量在各细分市场取
值的差异来详细描述它们各自的特点。
2.因子分析的基本过程
(a)检验数据相关性…(b)提取因子…(c)定义因子含义…(d)保存因子变量
注释:
步骤a…原始变量之间存在相关性是进行因子分析的基本前提,因为只有原始变量反映的信息存在相关或部分重叠,才有进行信息提炼的必要;这一步骤可借助于计算各原始变量间的相关系数来完成。
步骤b…提取因子是一个确认用多少个因子变量来取代原始变量能够达到尽量精炼数据信息而又不丢失主要信息的步骤;这一提取过程所依据的主要原则是原始数据信息保留70%以上并且因子含义可以清晰定义,所涉及的统计方法则是主成份分析法。
步骤c…定义因子含义是借助于因子负荷来完成的,其方法已在“因子负荷”
概念中有所阐述。
步骤d…以因子得分作为因子变量的取值保存,留待进行下一步分析时使用。
(三)聚类分析
在将网络用户进行细分的过程中,我们尝试了利用网络选择因子、生活态度因子分别进行聚类,综合考虑细分人群的特点及相互间差异的显著性,最终确定利用反映被访者网络选择考虑的因子作为进行分组的保留并据此将网络用户细分为四个市场。
聚类分析的基本思想:
以各因子为坐标轴,构成一个n维空间,而以某一被访者在各个因子上的得分作为坐标值,由此确定该被访者在这一空间中的位置,然后利用类似度量距离的方法,将被访者归类成组,使得组内差距达到最小而组间差距达到最大。
进一步,在描述某组人群特点时,就以其核心位置为代表来进行描述。
在本报告的细分市场数据分析上即体现为以细分人群在各个因子上的平均得分为依据,展示出各细分市场在网络选择考虑因素上的特点和差异。
(四)主成分分析
在本报告中对用户网络消费需求变化进行分析的过程中,我们首先将网络选择因素划分为13个大方面,例如将“广告有说服力”、“广告有吸引力”和“广告印象深刻”三个要素归结为网络选择的广告方面等等,然后通过比较不同类型网络用户对这13个方面的整体重要性评价,发现网络消费需求变化的趋势。
所以,问题的关键在于如何得出网络用户对各个方面的整体重要性评价,现以计算所有用户对广告方面的重要性评价为例简述这一过程:首先,我们利用这三个要素进行主成分分析,旨在得出各具体要素与广告方面的相关程度,以便对各要素的重要性得分进行加权;对于主成分分析方法的统计原理我们在此不作赘述,但基本可以对这一方法作如下直观理解:通过对以上提及的三个要素进行主成分分析,可以按照用户对它们各自的评价对最终归纳广告方面重要性的影响程度进行排序,排在第一位的是影响广告重要性评价最主要的要素,以此类推。
这种各要素的重要性程度或者说与广告重要性整体评价的相关,是以系数的形式体现的。
例如“广告有说服力”、“广告有吸引力”和“广告印象深刻”的系数分别为0.37、0.364、0.362,我们于是可以利用这些系数对用户在三个要素上的具体评价进行加权得出用户在广告方面的整体重要性评价并将这一评价以百分制的形式体现,具体计算可依据如下公式:
广告={[(0.37×广告有说服力+0.364×广告有吸引力+0.362×广告印象深刻)/(0.37+0.364+0.362)-1]/6}×100。