当前位置:文档之家› 第八章 数据分类与降维技术

第八章 数据分类与降维技术


8.1.3系统聚类法
(4)重心法 每一类的重心(又称质心)就是该类所有样品的 均值,类间距离用各自重心间的距离表示。 (5)类平均法 用两类样品两两之间平方距离的平均作为类之间 的距离。(SPSS 系统聚类默认的方法)
除以上 5 种类间距离计量方法外,常见的还有可 变法、可变类平均法及Ward法等方法,各种方法的计 算步骤完全相同,仅类与类之间的定义不同。
8.2.1判别分析概述
1、判别分析的基本思想
判别分析是根据已知分类的样本,基于一定的 判别准则建立判别函数,进而对未知类别的个体进 行类别划分的一种分类方法。其中用于建立判别函 数的样本称为训练样本。 判别分析中,每一类别可看作一个总体,每一 总体包含许多个体,个体又称为样品或个案。 描述个体类别属性的观测变量称为判别指标。 判别分析能否准确区分各类与判别指标是否较好地 描述了类别特征有关。 判别函数是关于各描述变量的函数表达式,变 量能否进入判别函数取决于变量的判别能力及具体 的判别方法。
8.1.1聚类分析的含义及原理
2、聚类分析的特点 ( 1 )聚类分析属于探索性分类方法,通过分析数 据的内在特点和规律,根据个体或变量的相似性 对其进行分类。 (2)聚类分析适用于没有先验知识的分类。 ( 3 )聚类分析得到的“类”并不存在一个明确的 概念,需要研究者结合研究目的和任务加以概括。 (4)聚类分析适合处理多个变量决定的分类。
' 1
S S ( x1i x1 j , x2i x2 j , , x pi x pj ) S2 p1
2 11 2 21
S S S S 2 2 Sp S 2 pp
2 12 2 22
2 1 1p 2 2p
x1i x1 j x2i x2 j x x pi pj
8.1.3系统聚类法
2、类与类之间的距离计量方法 (1)最短距离法 最短距离是将类与类之间的距离定义为两类中相 距最近的样品之间的距离 。 (2)最长距离法 最长距离法是将类与类之间的距离定义为两类中 相距最远的样品之间的距离。 (3)中间距离法 中间距离法对类与类之间的距离定义:先取距离 值居于中间的样品为一类,按中间距离法计算新类与 其他各类间的距离,依次进行下去。
8.1.1聚类分析的含义及原理
(2)根据分类的对象不同分:Q型聚类与R型聚类
• Q型聚类是对样品进行分类。一个样品有多个变量
属性描述,对于观测到的多个样品,根据样品的变 量特征,将特征相似的样品归为一类。
• R型聚类是对变量进行分类。反映研究对象特点的
变量有许多,有些变量之间存在相互关联,通过聚 类,可以找出相互独立又有代表性的主要变量,为 进行其他分析提供便利。
2、变量间相似性的度量 假 定 有 p 个 变 量 , 对 其 进 行 了 n 次 观 测 。 用 rij ( |rij|≤1 )表示 n 次观测中第 i 个变量和第 j 个变量之 间的相似系数。对所有变量两两间计算相似系数,同 样得到一个对称的相似系数矩阵R(p×p):
r11 r12 r21 r22 R r p1 rp 2 r1 p r2 p rpp
8.1.1聚类分析的含义及原理
1、聚类分析的含义与基本原理 •含义:聚类分析(Cluster Analysis)又称群分析, 是根据“物以类聚”的道理,将大量的样品(或变 量)依据数据间的相似性归为不同类的一种数据分 类方法。 •原理:根据已知数据,通过计算测定各样品(或变 量)之间的相似程度,根据某种准则,将众多样品 (或变量)归为不同类的一种多元统计分析方法, 聚类的结果要使同一类样品(或变量)间的差别较 小,而类与类之间的差别较大。
8
(9.42 7.9) 2 (27.93 39.77) 2 (8.2 8.49) 2 ... (9.76 13.29) 2 13.81
第二步:由距离表D1可判断,河南(3)与甘肃(4)的 距离最近,先将二者合为一类G6={G3,G4},其余分类不 变,样品聚为4类。重新计算G6与其他3类的距离如表D2。
8.1.2 样品(或变量)间相似程度的度量
(2)Pearson相关系数
rij
(x
k 1 n k 1
n
ki
xi )(xkj x j )
2 n 2
( ( xki xi ) )( ( xkj x j ) )
k 1
如果变量经过 Z 得分标准化处理,则两变量间的 夹角余弦等于相关系数。相关系数在-1到1之间。
8.1.3系统聚类法
1、系统聚类方法的步骤 (1)将n个样品各作为一类,形成n类; (2)计算n个样品两两之间的距离,构成距离矩阵; (3)基于上一步的样品距离公式计算类与类之间的距 离。把距离最近的两类合并成一类,总类数减少1; (4)重复上一步,计算类与类之间的距离。把距离最 近的两类合并成一类,总类数减少1,直至只有一类; (5)画聚类图,解释类与类之间的距离。
第八章 数据分类与降维技术
配套教材:统计数据分析方法与技术 经济管理出版社2014
第八章 数据分类与降维技术
• 8.1聚类分析 • 8.2判别分析 • 8.3主成分分析 • 8.4因子分析
8.1聚类分析
• 8.1.1聚类分析的含义及原理 • 8.1.2样品或变量相似程度的度量 • 8.1.3系统聚类法 • 8.1.4聚类分析案例及SPSS实现
8.1.4 聚类分析案例及SPSS实现
8.1.4 聚类分析案例及SPSS实现
(4)输出结果
8.1.4 聚类分析案例及SPSS实现
(4)输出结果
(4)输出结果;冰柱图
(4)输出结果;树状图
8.2判别分析
• 8.2.1判别分析概述 • 8.2.2判别分析的方法 • 8.2.3判别分析案例及SPSS实现
(4)Minkowski距离
d ij ( xik x jk )
k 1 p r样品(或变量)间相似程度的度量
(5)Lance距离
d ij
k 1 p
xki xkj xki xkj
(6)Mahalanobis距离
d ij ( xi x j ) ( xi x j )
d71=d(3,4,5)1=max{d13,d14,d15}=13.81 d72=d(3,4,5)2=max{d23,d24,d25}=24.63
第四步:由距离表 D3 可判断, 辽宁(1) 和浙江(2) 合为 一类 G8={G1,G2} ,所有样聚为两类。重新计算 G8 与另一 类的距离如表D4。
2.04 13.29 2.75 14.87 1.55 9.76 1.82 11.35 1.96 10.81
7.68 50.37 11.35
青海 10.06 28.64 10.52 10.05 16.18
解:各样品为:G1={辽宁},G2={浙江},G3={河南}, G4={甘肃},G5={青海}。 第一步:采用欧氏距离计算两两样品间的距离值, 得到如下距离表D1:
8.1.2 样品(或变量)间相似程度的度量
公式 (1)Euclidean距离 (2)Euclidean平方距离 (3)Chebychev距离 (4)Minkowski距离 (5)Lance距离 特点 • 适合于各变量计量单位相同并且变量 值变动范围相差不大的情况,否则,应 将变量进行标准化处理。 • 没有考虑变量之间的相关性,只能用 于变量之间相关性较低的情形。
此时,7与8最后合并为一类。 采用最长距离法得到的聚类结果与书中最短距离 法结果相同。 上述合并进程可用下图表示:
8.1.4 聚类分析案例及SPSS实现
上例用SPSS聚类工具实现过程如下: (1)输入数据; (2)调用聚类分析功能,进行聚类变量选取;
8.1.4 聚类分析案例及SPSS实现
(3)系统聚类设置:统计量、绘制(图)、方法
8.1.2 样品(或变量)间相似程度的度量
其中距离的计算公式主要有如下几种: (1)Euclidean距离
d ij
2 ( x x ) ik jk k 1 p
(2)Euclidean平方距离
d ij ( xik x jk ) 2
k 1 p
(3)Chebychev距离
dij max xik x jk
8.1.2 样品(或变量)间相似程度的度量
样品(或变量)之间的亲疏关系由相似性描述, 通常用距离描述样品间的相似性,用相似系数度量变 量间的相似性。 1、样品间距离的度量 假定有n个样品,每个样品有p个指标描述其性质, 形成 p 维向量, n 个样品就形成了 p 维空间中的 n 个点。 用dij(dij≥0)度量第i个样品与第j个样品的距离,由 此得到一个对称的距离矩阵D(n×n):
相似系数rij 的常用计算方式有夹角余弦和相关系 数两种。
8.1.2 样品(或变量)间相似程度的度量
(1)夹角余弦
rij
x
k 1 n
n
ki n
xkj
1/ 2
2 2 ( xki )( xkj ) k 1 k 1
rij为变量xi的观测向量(x1i,x2i,…,xni)′和变 量 xj 的观测向量( x1j , x2j , … , xnj ) ′ 之间夹角的余弦 函数。
8.2.1判别分析概述
2、判别分析对数据的要求 (1)选取的观测变量(作为判别分析的自变量) 应该是与分类有关的重要尺度。即:同一变量在不 同类的表现值应有显著差异。 (2)所分析的自变量应是因变量(类型)的重要 影响因素。 (3)作为训练样本,样本的容量不能太小,通常 要求样本容量是自变量个数的10倍以上,每一类的 样本容量是自变量个数的3倍以上 3、判别分析的分类 (1)按判别的总体数分: 两总体判别分析和多总体判别分析
其中:
相关主题