第八章 因子分析和聚类分析
Hale Waihona Puke (2) 对距离的测度方法选择
在Measure 栏中指定的是,用哪两点间的距 离决定是否合并两类。距离的具体计算方法还根 据参与距离的变量类型从以下3 种对话框选择其 一,展开选择菜单后再进行具体方法的选择。这 3 个对话框分别对应于等间隔测度的变量(一般为 连续变量)、计数变量(一般为离散变量)和二值变 量。以下为3 个对话框及其可选择的距离或不相 似性测度方法: Interval 参数框:应用于等间隔测度的变量。
Chebychev:Chebychev 距离,即两观察单 位间的距离为其任意变量的最大绝对差值,该技术 用于Q 型聚类; Block:City-Block 或Manhattan 距离,即两 观察单位间的距离为其值差的绝对值和,适用于Q 型聚类; Minkowski:距离是一个绝对幂的度量,即变 量绝对值的第p 次幂之和的平方根;p 由用户指定。 Customized :距离是一个绝对幂的度量即变 量绝对值的第p 次幂之和的第r 次根;p与r 由用户 指定。
(二)样本数据间“亲疏程度”的度量 聚类分析中,个体之间的“亲疏程度”是极为 重要的,它将直接影响最终的聚类结果。对“亲 疏程度”的测度一般有两个角度:第一,个体之 间的相似程度;第二,个体之间的差异程度。衡 量个体间的相似程度通常可采用简单相关系数或 等级相关系数等;个体间的差异程度通常通过某 种距离来测度。聚类时,距离较近的样本属于同 一类,距离较远的样本属于不同的类。 在SPSS中,对不同度量类型的数据采用了不 同的测定亲疏程度的统计量。 个体间距离的定义会受k个变量类型的影响。 由于变量类型一般有定距型和非定距型之分,使 得个体间距离的定义也因此不同。
2、分层聚类法根据聚类过程不同又分为凝聚法 和分解法。 (1)分解法:聚类开始把所有个体(观测量或 变量)都视为属于一大类,然后根据距离和相似性 逐层分解,直到参与聚类的每个个体自成一类为 止。 (2)凝聚法:聚类开始把参与聚类的每个个体 (观测量或变量)视为一类,根据两类之间的距离 或相似性逐步合并,直到合并为一个大类为止。 无论哪种方法,其聚类原则都是近似的聚为一类, 即距离最近或最相似的聚为一类。实际上以上两 种方法是方向相反的两种聚类过程。
(四)系统聚类的步骤 1、计算n个样品两两之间的距离记为矩 阵D; 2、首先构造n个类,每一类中只包含一 个样品; 3、合并距离最近的两类为新类; 4、 计算新类与当前类的距离; 5、 画谱系图; 6、决定类的个数和类。系统聚类允许一 类整个地包含在另一类内,但在这两类间 不能有其他类与之重叠。
二、因子分析的微机实现
在 SPSS 主 菜 单 中 选 择 Analyze→Data Reduction→Factor,可实现因子分析。
1、Factor Analysis主对话框:
(1) Variables栏,存放分析变量栏。
(2) Selection Variable选择变量栏,用于限制 有特殊值的样本子集的分析,当一个变量进入该 栏时,激活右侧的“Value”按钮。
(l) Method ,因子提取方法选择项
(2) Analyze 栏,指定分析矩阵的选择项。
(3) Display 栏,指定与因子提取有关的输出项。
(4) Extract 栏,控制提取进程和提取结果的选择 项。 (5) Maximum iterations for Convergence 参数框, 指定因子分析收敛的最大迭代次数。系统默认的 最大迭代次数为25。
单击矩形框右侧的向下箭头展开下拉菜单, 在菜单中选择连续变量距离测度的方法。这些方法 是: Euclidean distance:Euclidean 距离,即两观 察单位间的距离为其值差的平方和的平方根,该技 术用于Q 型聚类; Squared Euclidean distance:Euclidean 距离 平方,即两观察单位间的距离为其值差的平方和, 该技术用于Q 型聚类; Cosine:变量矢量的余弦,这是模型相似性的 度量; Pearson correlation:相关系数距离,适用于R 型聚类;
(五)SPSS分层聚类分析的基本操作步骤
1.Hierachical Cluster Analysis 主对话框,如图1 所示。
图1 Hierarchical Cluster Analysis 对话框
(1) Variable(s)栏:存放分析变量栏。
(2) Label Cases 栏:存放标识变量。
4、Rotation 对话框
(l) Method 栏选择旋转方法
(2) Display 栏选择有关输出显示
(3) Maximum iterations for Convergence 参数 框,指定旋转收敛的最大迭代次数。系统默认值 为25。可以在此项后面的矩形框中键入指定值。
5、Scores 对话框,有关因子得分的选择项
Count 参数框:应用于计数变量(离散变量)。 单击参数框右侧的向下箭头,展开下列两种方法选择 不相似性测度的方法。 Chi-Square measure 选项,卡方测度。用卡方值测度 不相似性,该测度是根据两个集的频数相等的卡方检验。 测度产生的值是卡方值的平方根。这是系统默认的。 对计数变量的不相似性测度方法。是根据被计算的两 个观测量或两个变量总频数计算其不相似性。期望值来自 观测量或变量(x、y)的独立模型。 Phi-Square measure 选项,两组频数之间的测度。该 测度试图考虑减少样本量对实际度值的实际预测频率减少 的影响。该测度把除以联合频数的平方根,使不相似性的 卡方测度规范化。该测度值与被计算不相似性的两个观测 量或两个变量的总频数无关。
Centroid clustering:重心法,应与欧氏
距离平方法一起使用,像计算所有各项均值之 间的距离那样计算两类之间的距离。该距离随 聚类的进行不断减小。
Median clustering:中间距离法应与欧氏 距离平方法一起使用。 Ward's method :离差平方和法应与欧氏 距离平方法一起使用。
(二)聚类分析的几点说明
1、所选择的变量应符合聚类的要求
2、各变量的变量值不应有数量级上的差异 3、个变量间不应有较强的线性相关关系 有两种处理方法:(1)首先进行变量聚类, 从每类中选一代表性变量,再进行样品聚类; (2)进行主成分分析或因子分析,降维,使之 成为不相关的新变量,再进行样品聚类。
1、聚类分析的对象类型有Q型聚类和R型聚类 (1)Q型聚类是对样品进行分类,即对观测进 行分类。根据观测有关变量的特征,将特征相似 的样品归为一类。 (2)R型聚类是对变量进行分类处理。一般来说, 可以反映研究对象特点的变量有许多,由于对客 观事物的认识有限,往往难以找出彼此独立且有 代表性的变量,影响对问题进一步的认识和研究, 因此往往需要先进行变量聚类,找出相互独立又 有代表性的变量,而又不丢失大部分信息。
(3) 待“Value”按钮激活后,单击该键,打开 Set Value对话框,可在该对话框键入标识参与分 析的观测量所具有的该变量值。
2、Descriptives对话框,描述统计量选择项 (l) Statistics 统计量栏 (2) Correlation Matrix相关矩阵栏
3、Extraction 对话框
二、层次聚类
(一)层次聚类概述
层次聚类又称分层聚类、系统聚类,简单讲是指聚类 过程是按照一定层次进行的。
层次聚类的基本思想是:首先,在聚类分析的开始, 每个样本自成一类;然后,按照某种方法度量所有样本之 间的亲疏程度,并把其中最亲密或称最相似的样本首先聚 成一小类;接下来,度量剩余的样本和小类间的亲疏程度, 并将当前最亲密的样本或小类再聚成一类;再接下来,再 度量剩余的样本或小类(或小类和小类)间的亲密程度, 并将当前最亲密的样本或小类再聚成一类;如此反复,直 到所有样本聚成一类为止。
(l) 聚类方法选择
用鼠标对准Cluster Method 框中的向下箭头按 钮,单击鼠标键,展开方法菜单。表中列出可以选择 的聚类方法:
Between-groups linkage:类间平均链锁。合 并两类的结果使所有的两两项对之间的平均距离最 小。项对的两个成员分别属于不同的类。该方法中 使用的是各对之间的距离,即非最大距离,也非最 小距离。
(三)因子模型的假设 1: m≤p; 2:模型为线性模型; 3:特殊因子之间是相互独立的; 4:公因子与特殊因子之间是相互独立的; 5: 各公因子都是均值为 0 ,方差为 1 的独 立正态随机变量。其协方差矩阵为单位 矩阵。
(四)因子分析的任务 求出因子模型和因子得分函数中的全部 系数,利用旋转后的因子模型并结合具体 问题给公因子以恰当的解释,利用因子得 分函数样品的因子得分,对样品进行分类 或排序。
6、“Options”对话框,有关输出的选择 项 (l) Missing Values 栏,选择处理缺失值 方法。 (2) Coefficient Display Format 栏,决定 载荷系数的显示格式。
第二节 聚类分析 一、聚类分析概述
(一)聚类分析的概念 聚类分析是一种建立分类的多元统计分析方法, 它能够将一批样本(或变量)数据根据其诸多特 征,按照在性质上的亲疏程度在没有先验知识的 情况下进行自动分类,将所有的样品或变量分别 聚合到不同的类中,使同一类中的个体有较大的 相似性,不同类中的个体差异较大。 所谓“没有先验知识”是指没有事先指定分类 标准;所谓“亲疏程度”是指在各变量(特征) 取值上的总体差异程度。聚类分析正是基于此实 现数据的自动分类的。