当前位置：文档之家› 第八章数据分类与降维技术

第八章数据分类与降维技术

8.1.3系统聚类法
（4）重心法每一类的重心（又称质心）就是该类所有样品的均值，类间距离用各自重心间的距离表示。（5）类平均法用两类样品两两之间平方距离的平均作为类之间的距离。（SPSS 系统聚类默认的方法）
除以上 5 种类间距离计量方法外，常见的还有可变法、可变类平均法及Ward法等方法，各种方法的计算步骤完全相同，仅类与类之间的定义不同。
8.2.1判别分析概述
1、判别分析的基本思想
判别分析是根据已知分类的样本，基于一定的判别准则建立判别函数，进而对未知类别的个体进行类别划分的一种分类方法。其中用于建立判别函数的样本称为训练样本。判别分析中，每一类别可看作一个总体，每一总体包含许多个体，个体又称为样品或个案。描述个体类别属性的观测变量称为判别指标。判别分析能否准确区分各类与判别指标是否较好地描述了类别特征有关。判别函数是关于各描述变量的函数表达式，变量能否进入判别函数取决于变量的判别能力及具体的判别方法。
8.1.1聚类分析的含义及原理
2、聚类分析的特点（ 1 ）聚类分析属于探索性分类方法，通过分析数据的内在特点和规律，根据个体或变量的相似性对其进行分类。（2）聚类分析适用于没有先验知识的分类。（ 3 ）聚类分析得到的“类”并不存在一个明确的概念，需要研究者结合研究目的和任务加以概括。（4）聚类分析适合处理多个变量决定的分类。
' 1
S S ( x1i x1 j , x2i x2 j , , x pi x pj ) S2 p1
2 11 2 21
S S S S 2 2 Sp S 2 pp
2 12 2 22
2 1 1p 2 2p
x1i x1 j x2i x2 j x x pi pj
8.1.3系统聚类法
2、类与类之间的距离计量方法（1）最短距离法最短距离是将类与类之间的距离定义为两类中相距最近的样品之间的距离。（2）最长距离法最长距离法是将类与类之间的距离定义为两类中相距最远的样品之间的距离。（3）中间距离法中间距离法对类与类之间的距离定义：先取距离值居于中间的样品为一类，按中间距离法计算新类与其他各类间的距离，依次进行下去。
8.1.1聚类分析的含义及原理
（2）根据分类的对象不同分：Q型聚类与R型聚类
• Q型聚类是对样品进行分类。一个样品有多个变量
属性描述，对于观测到的多个样品，根据样品的变量特征，将特征相似的样品归为一类。
• R型聚类是对变量进行分类。反映研究对象特点的
变量有许多，有些变量之间存在相互关联，通过聚类，可以找出相互独立又有代表性的主要变量，为进行其他分析提供便利。
2、变量间相似性的度量假定有 p 个变量，对其进行了 n 次观测。用 rij （ |rij|≤1 ）表示 n 次观测中第 i 个变量和第 j 个变量之间的相似系数。对所有变量两两间计算相似系数，同样得到一个对称的相似系数矩阵R（p×p）：
r11 r12 r21 r22 R r p1 rp 2 r1 p r2 p rpp
8.1.1聚类分析的含义及原理
1、聚类分析的含义与基本原理 •含义：聚类分析（Cluster Analysis）又称群分析，是根据“物以类聚”的道理，将大量的样品（或变量）依据数据间的相似性归为不同类的一种数据分类方法。 •原理：根据已知数据，通过计算测定各样品（或变量）之间的相似程度，根据某种准则，将众多样品（或变量）归为不同类的一种多元统计分析方法，聚类的结果要使同一类样品（或变量）间的差别较小，而类与类之间的差别较大。
8
(9.42 7.9) 2 (27.93 39.77) 2 (8.2 8.49) 2 ... (9.76 13.29) 2 13.81
第二步：由距离表D1可判断，河南（3）与甘肃（4）的距离最近，先将二者合为一类G6={G3，G4},其余分类不变，样品聚为4类。重新计算G6与其他3类的距离如表D2。
8.1.2 样品（或变量）间相似程度的度量
（2）Pearson相关系数
rij
(x
k 1 n k 1
n
ki
xi )(xkj x j )
2 n 2
( ( xki xi ) )( ( xkj x j ) )
k 1
如果变量经过 Z 得分标准化处理，则两变量间的夹角余弦等于相关系数。相关系数在-1到1之间。
8.1.3系统聚类法
1、系统聚类方法的步骤（1）将n个样品各作为一类，形成n类；（2）计算n个样品两两之间的距离，构成距离矩阵；（3）基于上一步的样品距离公式计算类与类之间的距离。把距离最近的两类合并成一类，总类数减少1；（4）重复上一步，计算类与类之间的距离。把距离最近的两类合并成一类，总类数减少1，直至只有一类；（5）画聚类图，解释类与类之间的距离。
第八章数据分类与降维技术
配套教材:统计数据分析方法与技术经济管理出版社2014
第八章数据分类与降维技术
• 8.1聚类分析 • 8.2判别分析 • 8.3主成分分析 • 8.4因子分析
8.1聚类分析
• 8.1.1聚类分析的含义及原理 • 8.1.2样品或变量相似程度的度量 • 8.1.3系统聚类法 • 8.1.4聚类分析案例及SPSS实现
8.1.4 聚类分析案例及SPSS实现
8.1.4 聚类分析案例及SPSS实现
（4）输出结果
8.1.4 聚类分析案例及SPSS实现
（4）输出结果
（4）输出结果；冰柱图
（4）输出结果；树状图
8.2判别分析
• 8.2.1判别分析概述 • 8.2.2判别分析的方法 • 8.2.3判别分析案例及SPSS实现
（4）Minkowski距离
d ij ( xik x jk )
k 1 p r样品（或变量）间相似程度的度量
（5）Lance距离
d ij
k 1 p
xki xkj xki xkj
（6）Mahalanobis距离
d ij ( xi x j ) ( xi x j )
d71=d(3,4,5)1=max{d13,d14,d15}=13.81 d72=d(3,4,5)2=max{d23,d24,d25}=24.63
第四步：由距离表 D3 可判断，辽宁(1) 和浙江(2) 合为一类 G8={G1,G2} ，所有样聚为两类。重新计算 G8 与另一类的距离如表D4。
2.04 13.29 2.75 14.87 1.55 9.76 1.82 11.35 1.96 10.81
7.68 50.37 11.35
青海 10.06 28.64 10.52 10.05 16.18
解：各样品为：G1={辽宁}，G2={浙江}，G3={河南}， G4={甘肃}，G5={青海}。第一步：采用欧氏距离计算两两样品间的距离值，得到如下距离表D1：
8.1.2 样品（或变量）间相似程度的度量
公式（1）Euclidean距离（2）Euclidean平方距离（3）Chebychev距离（4）Minkowski距离（5）Lance距离特点 • 适合于各变量计量单位相同并且变量值变动范围相差不大的情况，否则，应将变量进行标准化处理。 • 没有考虑变量之间的相关性，只能用于变量之间相关性较低的情形。
此时，7与8最后合并为一类。采用最长距离法得到的聚类结果与书中最短距离法结果相同。上述合并进程可用下图表示：
8.1.4 聚类分析案例及SPSS实现
上例用SPSS聚类工具实现过程如下：（1）输入数据；（2）调用聚类分析功能，进行聚类变量选取；
8.1.4 聚类分析案例及SPSS实现
（3）系统聚类设置：统计量、绘制（图）、方法
8.1.2 样品（或变量）间相似程度的度量
其中距离的计算公式主要有如下几种：（1）Euclidean距离
d ij
2 ( x x ) ik jk k 1 p
（2）Euclidean平方距离
d ij ( xik x jk ) 2
k 1 p
（3）Chebychev距离
dij max xik x jk
8.1.2 样品（或变量）间相似程度的度量
样品（或变量）之间的亲疏关系由相似性描述，通常用距离描述样品间的相似性，用相似系数度量变量间的相似性。 1、样品间距离的度量假定有n个样品，每个样品有p个指标描述其性质，形成 p 维向量， n 个样品就形成了 p 维空间中的 n 个点。用dij（dij≥0）度量第i个样品与第j个样品的距离，由此得到一个对称的距离矩阵D（n×n）：
相似系数rij 的常用计算方式有夹角余弦和相关系数两种。
8.1.2 样品（或变量）间相似程度的度量
（1）夹角余弦
rij
x
k 1 n
n
ki n
xkj
1/ 2
2 2 ( xki )( xkj ) k 1 k 1
rij为变量xi的观测向量（x1i，x2i，…，xni）′和变量 xj 的观测向量（ x1j ， x2j ， … ， xnj ） ′ 之间夹角的余弦函数。
8.2.1判别分析概述
2、判别分析对数据的要求（1）选取的观测变量（作为判别分析的自变量）应该是与分类有关的重要尺度。即：同一变量在不同类的表现值应有显著差异。（2）所分析的自变量应是因变量（类型）的重要影响因素。（3）作为训练样本，样本的容量不能太小，通常要求样本容量是自变量个数的10倍以上，每一类的样本容量是自变量个数的3倍以上 3、判别分析的分类（1）按判别的总体数分：两总体判别分析和多总体判别分析
其中：

e商务文档

第八章数据分类与降维技术

相关文档推荐：

e商务文档

第八章 数据分类与降维技术

相关文档推荐：

第八章数据分类与降维技术