当前位置：文档之家› 第八章因子分析和聚类分析

第八章因子分析和聚类分析

Hale Waihona Puke (2) 对距离的测度方法选择
在Measure 栏中指定的是，用哪两点间的距离决定是否合并两类。距离的具体计算方法还根据参与距离的变量类型从以下3 种对话框选择其一，展开选择菜单后再进行具体方法的选择。这 3 个对话框分别对应于等间隔测度的变量(一般为连续变量)、计数变量(一般为离散变量)和二值变量。以下为3 个对话框及其可选择的距离或不相似性测度方法： Interval 参数框：应用于等间隔测度的变量。

Chebychev：Chebychev 距离，即两观察单位间的距离为其任意变量的最大绝对差值，该技术用于Q 型聚类； Block：City-Block 或Manhattan 距离，即两观察单位间的距离为其值差的绝对值和，适用于Q 型聚类； Minkowski：距离是一个绝对幂的度量，即变量绝对值的第p 次幂之和的平方根；p 由用户指定。 Customized ：距离是一个绝对幂的度量即变量绝对值的第p 次幂之和的第r 次根；p与r 由用户指定。
（二）样本数据间“亲疏程度”的度量聚类分析中，个体之间的“亲疏程度”是极为重要的，它将直接影响最终的聚类结果。对“亲疏程度”的测度一般有两个角度：第一，个体之间的相似程度；第二，个体之间的差异程度。衡量个体间的相似程度通常可采用简单相关系数或等级相关系数等；个体间的差异程度通常通过某种距离来测度。聚类时，距离较近的样本属于同一类，距离较远的样本属于不同的类。在SPSS中，对不同度量类型的数据采用了不同的测定亲疏程度的统计量。个体间距离的定义会受k个变量类型的影响。由于变量类型一般有定距型和非定距型之分，使得个体间距离的定义也因此不同。
2、分层聚类法根据聚类过程不同又分为凝聚法和分解法。（1）分解法：聚类开始把所有个体(观测量或变量)都视为属于一大类，然后根据距离和相似性逐层分解，直到参与聚类的每个个体自成一类为止。（2）凝聚法：聚类开始把参与聚类的每个个体 (观测量或变量)视为一类，根据两类之间的距离或相似性逐步合并，直到合并为一个大类为止。无论哪种方法，其聚类原则都是近似的聚为一类，即距离最近或最相似的聚为一类。实际上以上两种方法是方向相反的两种聚类过程。

（四）系统聚类的步骤 1、计算n个样品两两之间的距离记为矩阵D； 2、首先构造n个类，每一类中只包含一个样品； 3、合并距离最近的两类为新类； 4、计算新类与当前类的距离； 5、画谱系图； 6、决定类的个数和类。系统聚类允许一类整个地包含在另一类内，但在这两类间不能有其他类与之重叠。
二、因子分析的微机实现
在 SPSS 主菜单中选择 Analyze→Data Reduction→Factor，可实现因子分析。
1、Factor Analysis主对话框：
(1) Variables栏，存放分析变量栏。

(2) Selection Variable选择变量栏，用于限制有特殊值的样本子集的分析，当一个变量进入该栏时，激活右侧的“Value”按钮。
(l) Method ，因子提取方法选择项
(2) Analyze 栏，指定分析矩阵的选择项。
(3) Display 栏，指定与因子提取有关的输出项。
(4) Extract 栏，控制提取进程和提取结果的选择项。 (5) Maximum iterations for Convergence 参数框，指定因子分析收敛的最大迭代次数。系统默认的最大迭代次数为25。

单击矩形框右侧的向下箭头展开下拉菜单，在菜单中选择连续变量距离测度的方法。这些方法是： Euclidean distance：Euclidean 距离，即两观察单位间的距离为其值差的平方和的平方根，该技术用于Q 型聚类； Squared Euclidean distance：Euclidean 距离平方，即两观察单位间的距离为其值差的平方和，该技术用于Q 型聚类； Cosine：变量矢量的余弦，这是模型相似性的度量； Pearson correlation：相关系数距离，适用于R 型聚类；
（五）SPSS分层聚类分析的基本操作步骤

1．Hierachical Cluster Analysis 主对话框，如图1 所示。
图1 Hierarchical Cluster Analysis 对话框
(1) Variable（s）栏：存放分析变量栏。
(2) Label Cases 栏：存放标识变量。
4、Rotation 对话框

(l) Method 栏选择旋转方法
(2) Display 栏选择有关输出显示

(3) Maximum iterations for Convergence 参数框，指定旋转收敛的最大迭代次数。系统默认值为25。可以在此项后面的矩形框中键入指定值。
5、Scores 对话框，有关因子得分的选择项

Count 参数框：应用于计数变量(离散变量)。单击参数框右侧的向下箭头，展开下列两种方法选择不相似性测度的方法。 Chi-Square measure 选项，卡方测度。用卡方值测度不相似性，该测度是根据两个集的频数相等的卡方检验。测度产生的值是卡方值的平方根。这是系统默认的。对计数变量的不相似性测度方法。是根据被计算的两个观测量或两个变量总频数计算其不相似性。期望值来自观测量或变量(x、y)的独立模型。 Phi-Square measure 选项，两组频数之间的测度。该测度试图考虑减少样本量对实际度值的实际预测频率减少的影响。该测度把除以联合频数的平方根，使不相似性的卡方测度规范化。该测度值与被计算不相似性的两个观测量或两个变量的总频数无关。

Centroid clustering：重心法，应与欧氏
距离平方法一起使用，像计算所有各项均值之间的距离那样计算两类之间的距离。该距离随聚类的进行不断减小。

Median clustering：中间距离法应与欧氏距离平方法一起使用。 Ward's method ：离差平方和法应与欧氏距离平方法一起使用。
（二）聚类分析的几点说明
1、所选择的变量应符合聚类的要求
2、各变量的变量值不应有数量级上的差异 3、个变量间不应有较强的线性相关关系有两种处理方法：（1）首先进行变量聚类，从每类中选一代表性变量，再进行样品聚类；（2）进行主成分分析或因子分析，降维，使之成为不相关的新变量，再进行样品聚类。
1、聚类分析的对象类型有Q型聚类和R型聚类（1）Q型聚类是对样品进行分类，即对观测进行分类。根据观测有关变量的特征，将特征相似的样品归为一类。（2）R型聚类是对变量进行分类处理。一般来说，可以反映研究对象特点的变量有许多，由于对客观事物的认识有限，往往难以找出彼此独立且有代表性的变量，影响对问题进一步的认识和研究，因此往往需要先进行变量聚类，找出相互独立又有代表性的变量，而又不丢失大部分信息。
(3) 待“Value”按钮激活后，单击该键，打开 Set Value对话框，可在该对话框键入标识参与分析的观测量所具有的该变量值。

2、Descriptives对话框，描述统计量选择项 (l) Statistics 统计量栏 (2) Correlation Matrix相关矩阵栏
3、Extraction 对话框
二、层次聚类
（一）层次聚类概述

层次聚类又称分层聚类、系统聚类，简单讲是指聚类过程是按照一定层次进行的。
层次聚类的基本思想是：首先，在聚类分析的开始，每个样本自成一类；然后，按照某种方法度量所有样本之间的亲疏程度，并把其中最亲密或称最相似的样本首先聚成一小类；接下来，度量剩余的样本和小类间的亲疏程度，并将当前最亲密的样本或小类再聚成一类；再接下来，再度量剩余的样本或小类（或小类和小类）间的亲密程度，并将当前最亲密的样本或小类再聚成一类；如此反复，直到所有样本聚成一类为止。

(l) 聚类方法选择
用鼠标对准Cluster Method 框中的向下箭头按钮，单击鼠标键，展开方法菜单。表中列出可以选择的聚类方法：

Between-groups linkage：类间平均链锁。合并两类的结果使所有的两两项对之间的平均距离最小。项对的两个成员分别属于不同的类。该方法中使用的是各对之间的距离，即非最大距离，也非最小距离。

（三）因子模型的假设 1: m≤p； 2:模型为线性模型; 3:特殊因子之间是相互独立的; 4:公因子与特殊因子之间是相互独立的; 5: 各公因子都是均值为 0 ，方差为 1 的独立正态随机变量。其协方差矩阵为单位矩阵。
（四）因子分析的任务求出因子模型和因子得分函数中的全部系数，利用旋转后的因子模型并结合具体问题给公因子以恰当的解释，利用因子得分函数样品的因子得分，对样品进行分类或排序。
6、“Options”对话框，有关输出的选择项 (l) Missing Values 栏，选择处理缺失值方法。 (2) Coefficient Display Format 栏，决定载荷系数的显示格式。
第二节聚类分析一、聚类分析概述
（一）聚类分析的概念聚类分析是一种建立分类的多元统计分析方法，它能够将一批样本（或变量）数据根据其诸多特征，按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类，将所有的样品或变量分别聚合到不同的类中，使同一类中的个体有较大的相似性，不同类中的个体差异较大。所谓“没有先验知识”是指没有事先指定分类标准；所谓“亲疏程度”是指在各变量（特征）取值上的总体差异程度。聚类分析正是基于此实现数据的自动分类的。

e商务文档

第八章因子分析和聚类分析

相关文档推荐：

e商务文档

第八章 因子分析和聚类分析

相关文档推荐：

第八章因子分析和聚类分析