当前位置：文档之家› SPSS Modeler数据挖掘第七讲

SPSS Modeler数据挖掘第七讲

数值型变量值的总和及平方和
2 CFj {N j , S Aj , S Aj , N Bj }
2 2 CF j ,s {N j N s , S Aj S As , S Aj S As , N Bj N Bs }
两步聚类算法：预聚类

预聚类过程:建立CF树视所有数据为大类，汇总统计量存在根结点中读入一个样本点，从CF树的根结点开始，利用结点的汇总统计量，计算数据与中间结点的对数似然距离。沿对数似然距离最小的中间结点依次向下选择路径直到叶结点计算与子树中所有叶结点（子类）的对数似然距离，找到距离最近的叶结点
聚类算法种类

从聚类变量类型角度划分数值型聚类算法、分类型聚类算法、混合型聚类算法从聚类的原理角度划分划分聚类（Partitional clustering）层次聚类（Hierarchical clustering）基于密度的聚类（Density-based clustering ）网格聚类（Rid clustering ）
两步聚类算法：预聚类

预聚类过程如果最近距离小于一定阈值，则该数据被相应的叶结点“吸收”；否则，该数据将“开辟” 一个新的叶结点。重新计算叶结点和相应所有父结点的汇总统计量叶结点足够大时应再分裂成两个叶结点叶结点个数达到允许的最大聚类数目时，应适当增加阈值重新建树，以得到一棵较小的CF树重复上述过程，直到所有数据均被分配到某个叶结点（子类）为止
两步聚类算法

两步聚类：Chiu，2001年在BIRCH（Balanced
Iterative Reducing and Clustering using Hierarchies）算法基础上提出的一种改进算法

特点：算法尤其适合于大型数据集的聚类研究通过两步实现数据聚类同时处理数值型聚类变量和分类型聚类变量根据一定准则确定聚类数目诊断样本中的离群点和噪声数据
f ( x) j f j ( X ; j )
j 1

如果数据矩阵的各行独立，则：
l iI log p( X i | j ) l j
j 1
j
J
J
j 1
“亲疏程度”的测度

K个聚类变量x1，x2，…xk，KA个数值型聚类变量和KB个分类型聚类变量。对数似然距离定义为：
两步聚类算法：预聚类

离群点的甄别离群点，即那些合并到任何一个类中都不恰当的数据点两步聚类的处理策略：找到包含样本量较少的“小”叶结点，如果其中的样本量仅是“最大”叶结点所含样本量的很小比例，则视这些叶结点中的数据点为离群点(Modeler默认为25%)
两步聚类算法：聚类
两步聚类算法

第一步，预聚类采用“贯序”方式将样本粗略划分成 L个子类预聚类过程聚类数目不断增加第二步，聚类在预聚类的基础上，再根据“亲疏程度”决定哪些子类可以合并，或者哪些子类可以在拆分为更小的子类，最终形成L’类
“亲疏程度”的测度

聚类变量均为数值型（标准化后），采用欧氏距离，否则，采用对数似然距离通过对数似然函数的形式描述全部样本的聚类分布特征:混合分布,总体分布描述为有限个子分布 J 的加权线性组合

聚类过程：分析对象是预聚类所形成的稠密区域方法：层次聚类法逐步将较多的小类合并为较少的大类，再将较少的大类合并成更少的更大类，最终将更大类的合并成一个大类，是一个类不断“凝聚”的过程问题：第一，内存容量问题第二，怎样的聚类数目是合适的问题
聚类数目的确定

第一阶段：依据BIC，确定粗略的聚类数依据类内部差异性并兼顾模型复杂度
聚类分析
主要内容

聚类分析方法概述两步聚类方法基于聚类分析的离群点探索
聚类分析方法概述

聚类分析是对数据进行描述建模型的方法，目的探索数据中是否存在“自然的子类” 聚类算法的种类从聚类结果角度划分从聚类变量类型角度划分从聚类原理角度划分
聚类算法种类

从聚类结果角度划分：覆盖聚类与非覆盖聚类：每个数据点都至少属于一个类，为覆盖聚类，否则为非覆盖聚类层次聚类和非层次聚类：存在两个类，其中一个类是另一个类的子集，为层次聚类，否则为非层次聚类确定聚类和模糊聚类：任意两个类的交集为空，一个数据点最多只属于一个类，为确定聚类（或硬聚类）。否则，如果至少一个数据点属于一个以上的类，为模糊聚类

反应了类内部变量取值的总体差异性（定距变量以方差测度，分类型变量以熵测度）
两步聚类算法：预聚类

算法是Zhang等，1996，BIRCH算法的改进算法， CF树（Clustering Feature Tree ） CF树是一种描述树结构的数据存储方式叶结点为子类，具有同一父结点的若干子类合并为一个大类形成树的中间结点。若干大类合并成更大的类形成更高层的中间结点，直到根结点表示所有数据形成一类 CF树是一种数据压缩存储方式 (充分统计量)
d ( j, s) lˆ lˆnew lˆj lˆs lˆ j ,s j s j ,s
合并之前的对数似然
KA KBຫໍສະໝຸດ 合并之后的对数似然k
L N vkl N vkl 1 2 2 ˆ ˆ log( ) ˆ k ˆ vk ) Evk ) Evk v N v ( log( Nv l 1 N v k 1 2 k 1
BIC( J ) 2 j mJ log(N )
j 1 J
mJ J (2 K A ( Lk 1))
k 1
KB

所有类合并成一个大类，BIC的第一项最大，第二项最小。当聚类数目增加时，第一项逐渐减少，第二项逐渐增大，但BIC总体上减少；当聚类数目增加到J时，第二项的增大幅度开始大于第一项的减少幅度，BIC总体上开始增大，此刻的J即为所求

e商务文档

SPSS Modeler数据挖掘第七讲

相关文档推荐：

e商务文档

SPSS Modeler数据挖掘 第七讲

相关文档推荐：

SPSS Modeler数据挖掘第七讲