当前位置:文档之家› 基于因子分析和聚类分析的客户偏好探究

基于因子分析和聚类分析的客户偏好探究

基于因子分析和聚类分析的客户偏好探究一文献综述二十世纪五十年代中期,美国学者温德尔史密斯提出了顾客细分理论。

该理论指出,顾客由于其文化观念、收入、消费习俗等方面的不同可以分为不同的消费群体。

企业在经营中应该针对不同的顾客提供针对性的服务,这样才能够利用有限资源进行有效的市场竞争。

对顾客的细分从方法上讲有根据人口特征和购买历史的细分和根据顾客对企业的价值即基于顾客的消费金额、消费频率的细分。

本文的细分是基于购买历史和人口特征的聚类分析。

饭店作为一个古老的服务行业,在现阶段的高度竞争市场下的发展趋势最重要的方面便是服务趋于个性化,所以针对饭店的消费群体特征的聚类可以对饭店进行定位,在此基础上通过分析目标客户群体对消费质量评价的最主要影响因素可以达到其服务个性化的目标。

波特把顾客的价值定义为买方感知性与购买成本的一种权衡。

对顾客的个性化服务增加了买方的感知度从而加大了他们愿意为此付出的成本,于是饭店便可以增加营业额。

聚类分析是把研究对象视作多维空间中的许多点, 并合理地分成若干类,即一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。

1故聚类算法是对顾客进行分析的一个有效方式。

在聚类分析的众多算法中因子分析是研究如何以最少的信息丢失, 将众多原始变量浓缩成少数几个因子变量, 以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。

2而典型的k-means算法以平方误差准则较好地实现了空间聚类,对于大数据集的处理效率较高。

3在对顾客细分相关文献的研究过程中,主要运用的方法有神经网络,分层聚类,因子分析等方法。

比如,在关于网络青少年用户的分类中,作者用层次聚类的方法,通过对青少年年龄,性别,民族,网络可得性,父母的观点等变量等变量定义不同的上网动机,在此基础上对其进行了分类。

而在研究人寿保险持有者未来购买基金支持寿险可能性的文章中,通过灰度聚类和神经网络利用消费者的基本信息,财产地位信息,风险承受程度将消费者分为了忠实客户和非忠实客户。

在对客户忠诚度的聚类中,作者用RFM的商业模型用DBI确定了Kmeans的最优K值,并最终用kmeans对客户忠诚度进行了聚类。

经过综合分析,我们选择了这两种方法处理顾客数据和饭店的基本资料。

即,通过k-means对客户进行聚类后通过因子分析分析不同类别客户的评价影响因素。

为分析每类客户倾向的饭店特征,本文根据客户聚类结果对饭店数据进行筛选。

由于饭店部分属性之间具有相关性,本文采用因子分析法挖掘其“根本属性”,之后对饭店数据进1李蓉, 李宇. 基与主成分分析与聚类分析方法的我国西部区域划分问题的研究. 科技广场,2李新蕊.主成分分析、因子分析、聚类分析的比较与应用. 山东教育学院学报.3杨善林.kmeans 算法中的k 值优化问题研究系统工程理论与实践行聚类,分析得到每类客户评价得分最高的饭店特征。

二方法论本文选取UCI上的数据(包括饭店、客户、评价得分等信息),旨在通过划分客户群体并分析每一类客户对不同饭店的评价得分,得出每一类顾客选择饭店的倾向,即特定类别客户的喜好和评价饭店时最看重的因素。

将结论应用于指导饭店发展路线与目标客户群间的战略匹配。

具体方法步骤如下:1 根据详细的客户信息对客户进行K-means聚类,总结出每一类客户的显著特点2 客户偏好的研究饭店的多个属性之间存在相互影响的关系,因此本文在研究饭店特点采用因子分析法,将相同本质的属性归入一个因子,既可减少变量的数目,又能得出能够表征饭店属性的影响因子。

在因子分析的基础上,对同类顾客所评价的饭店进行聚类分析,得到每类顾客所选饭店的种类。

然后分析比较各类饭店的特点,选出影响最大的因子(依据系数绝对值大小来判断),参照因子旋转矩阵后即可得到对顾客评分影响最大的饭店属性,从而分析出特定类别顾客在选择、评价一家饭店时的偏好。

Figure 1 研究框架三研究过程(一)顾客聚类分析:在顾客信息的属性中删去User ID,其余属性作为输入字段进行K均值聚类。

模型中的K 值默认为5,但是分类结果中不同类型间的差异较小,随即降低K值进行尝试。

考虑到顾客评分分为0,1,2三个等级,而且K=3时分类结果间的差异较显著,因此将顾客分为三类。

Cluster 1:此类顾客人数最多,出生日期在1986年之后,绝大多数人学生,其次是工作者,主要同家人一起就餐;基本不饮酒;兴趣点主要为technology;绝大多数未婚,性格为thrifty protector Catholic为主;基本不吸烟;公交Cluster 2:此类顾客人数最少,年龄最大,不愿多透漏个人信息(数据中有大量缺失值)。

Cluster 3:此类顾客人数居中,出生年份在1981左右,主要为学生、工作者多与朋友一起就餐,大多属于social drinker。

多数人是单身,但是单身比率高于类型1,性格为hard-worker,car-owner为主。

聚类分析结果如下图所示:Figure 2 顾客的聚类结果(二)顾客偏好分析本文通过分析每类顾客关注饭店的特征提取分析顾客的偏好,从而便于饭店把握顾客需求,指定差异化战略。

1.因子分析i.评价指标的选择及数据预处理影响顾客在饭店消费体验的影响性变量,本文主要筛选如下:alcohol,smoking_ area,dress_ code,accessibili1y,price,Rambience ,Franchise, area, parking, acceptance, other service。

由于因子分析需要数值型数据,本文对饭店数据中定性的变量量化处理。

统计学依据数据的计量尺度将数据划分为三类:定距型数据(Scale)、定序型数据(Ordinal)、定类型数据(Nominal)。

定距型数据通常是指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据;定序型数据具有内在固有大小或高低顺序,职称变量可以有低级、中级、高级三个取值,可以分别用1、2、3等表示,数据间却是不等距的。

测量数值不能直接比较大小,只能比较优先次序。

定类型数据是指没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。

如性别变量中的男、女取值。

本文采用的数据中,饭店的属性包含多个定序型变量,如other-variance包含none,Internet 和variety三类;Accessibility包括no_accessibility,completely和partially 三类。

本文采用0、1、2代表上述属性中的值,0、1、2代表依次递增,即0表示no_accessibility,1表示partially,2表示completely。

此外,数据集中还有定类型的数据,如franchise有True和false两种取值。

本文中将却是指用该属性取值的平均值替代。

ii.因子分析由于饭店的属性之间部分具有相关性,本文采用spss进行因子分析来消除这种相关性。

对饭店数据库中的影响性变量相关数据进行因子分析,所得结果见Figure 4。

从Figure 4中可以看出,前八个因子的累计方差贡献率已经达到86.028%。

根据累计方差贡献率>85%的标准,本文选择前八个作为因子进行分析。

Figure 4 初始特征矩阵为了更好地赋予所得因子以合理的解释意义,本文进行了因子旋转,因子载荷矩阵见Figure 5,从表中的因子载荷可以看出,第一个因子(F1)可以用来解释price,第二个因子(F2)可以用来解释alcohol,第三个因子(F3)可以用来解释smoking-area,第四个因子(F4)可以用来解释Franchise,第五个因子(F5)可以用来解释Rambience,第六个因子(F6)可以用来解释dress_code,第七个因子(F7)可以用来解释Cuisine,第八个因子(F8)可以用来解释Parking,八大因子的累计方差贡献率可以反映顾客对饭店的满意程度。

Figure 6 因子载荷矩阵根据表,可由因子方差贡献率计算得出因子解释贡献率(因子解释贡献率=因子方差贡献率/总方差贡献率),从而得到各饭店的因子得分数据,具体数据如附录所示。

Figure 7 提取平方和载入矩阵iii.饭店聚类分析为分析每类顾客偏好的饭店类型,本文针对每类顾客评价过的饭店进行聚类分析,希望找出具有不同评分的各类饭店的显著性特征。

本文采用K-means方法对各类顾客评价过的饭店数据进行聚类分析。

以cluster 1客户为例,筛选出cluster 1 客户评分过的饭店因子得分数据,对该部分数据进行聚类分析。

由于顾客对饭店的评分分为三类(0,1,2),此处对饭店聚类K值选取为3.计算每类饭店的客户评分平均值,可得出cluster 1客户最偏好的饭店类别。

通过分析该类饭店的显著性特征,可得出cluster 1客户最偏好的饭店特征。

判断cluster 1 偏好的饭店特征具体步骤如下:1)筛选出cluster 1 评价过的饭店因子得分数据。

2)对该数据应用k-means进行聚类分析,k取值为3.3)分析每类饭店的显著性特征4)计算每类饭店的平均客户评分并对三类饭店进行排名。

5)分析排名第一的饭店(cluster 1 客户最偏好的饭店)的显著性特征。

在解释聚类分析的结果时,本文采取每类累计方差解释度较高的因子解释每类饭店的特征。

综合考虑各类顾客各类饭店的数据分析结果我们可以看到,无论是哪类饭店F4、F5、F6均具有较高的方差解释度,因此可以看出无论是哪类顾客都是比较看重F4、F5、F6这三类因子的,结合Figure 6(因子载荷矩阵),可以分析得出Franchise、Rambience、dress_code 是所有饭店都考虑的普遍性因素。

考虑每类饭店除F4、F5、F6之外的因子影响程度,可分析得出不同顾客对饭店的差异化要求,便于饭店针对顾客指定差异化战略。

对cluster 1 参与评价的饭店评价因子得分数据进行聚类分析,其结果如Figure 8所示。

可以看出除F4、F5、F6之外聚类一饭店的特征还可用F2解释,结合Figure 6,可以分析得出除了cluster 1的顾客对alcohol是较为关注的。

同理聚类二的饭店特征除F4、F5、F6之外还可用F1进行解释,因此cluster 1 的顾客对Price是较为关注的。

聚类三的饭店特征还可用F7进行解释,因此cluster 1 的顾客对Cuisine是较为关注的。

计算三类饭店的客户评分平均值,得到cluster 1的客户对于聚类1的饭店评分是最高的,可以看出可分析得出该类客户是最看重的差异化服务是alcohol。

Figure 8 cluster 1 客户聚类分析结果为分析cluster 2客户的差异化要求,对cluster 2 参与评价的饭店评价因子得分数据进行聚类分析,其结果如Figure 9所示。

相关主题