当前位置：文档之家› 空间聚类

空间聚类

直接密度可达
O
Q
P
设MinPts=3 图中Q从P出发是直接密度可达的，反之亦然；O从Q出发是密度可达的，反之则不然。
• 如果对象Q在对象P的e-邻域内，而P又是核心对象，则称对象Q从对象P出发是直接密度可达的。
密度相连
S
U T P O
R
Q
设MinPts=3 图中O-P-Q-R-S是直接密度可达的，O-TU是密度可达的。U和 S是密度相连的。
6
3.020 1.644 0.778 3.321 2.017 0.602
相似性度量为 cosij Q型聚类
顺序 1 2 3 4 5 连接点群号 1 5 2 2，3 1,4 4 6 3 5，6 2,3,5,6 相似水平 0.991 0.987 0.985 0.981 0.972
1.00 1 0.99 0.98 0.97 0.96 0.95
•引入类间距离下限作为类别是否合并的标准
Di ,k
2 ( ) ij kj j 1 p
ip kp
(i, k 1,2, m)
i, k代表类别 , 为样本数, p代表变量数或维数 ,
为变量均值, kp代表类别k中变量p的均方差
3.3 空间密度异常的提取方法
3.3 划分聚类

定义

基本算法（K-Means）
实例计算该算法的特点

改进方法
划分聚类的原理
定义：给定一个大小为N的数据集，将其分为m类，使类内具有较高的相似度，而类间的相似度较低。
计算实例
0.9
0.8
0.7
0.6
0.5 0.9
0.4 0.8
0.3 0.7
0.2 0.6 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.5
2.2 空间数据的来源
来源的形式 1. 记录空间现象采样数据（主动）、台站记录（被动）、遥感数据（全覆盖） 2. 记录空间对象签到数据（主动）、射频数据（被动）、手机信令（全程记录）
泛在传感器种类 1、记录仪 2、分析仪 3、监控探头 4、遥感卫星 …
1、短信、微博 2、智能卡、读卡器 3、上网记录 4、GPS …
相似性度量为 cosij R型聚类
1.00 Co Cu
0.80
0.60
0.40
0.20
0.0
Ni
S As
Cr
层次聚类分析流程
空间数据
次选取较大的相似性度量
绘制聚类谱系图
选择分解阈值确定聚类结果
层次聚类的流程
层次聚类特点

呈树型的层次结构需要计算相似性度量矩阵聚类过程是从底部向上需要人为确定划分阈值

直观、易实现且占用内存少类别数目以及初始类中心的选择具有较强的主观性无法处理形状复杂的数据
划分聚类的改进算法
•引入组内变量平均标准差上限作为类别是否分裂的标准
1 Sk Np
2 ( x ) ijk jk i 1 j 1 N p
(k 1,2, m)
k代表类别 N为样本数 p代表变量数或维数为变量均值
应用领域 5
空间数据挖掘和知识发现

城市居民的活动模式发现地球物理和地球化学异常的发现遥感图象的分类、识别
1.4 数据挖掘的理论基础
粗糙集
概率统计
模糊理论
人工智能
数据挖掘和知识发现
可视化理论
决策理论
数据库理论
专业知识
1.5 数据挖掘研究的任务
数据挖掘研究
规则知识
求同普遍规则求异异常模式
4
5 6 2 3
1 2 3 4 5 6
1.000 0.962 0.941 0.991 0.936 0.947 1 1.000 0.985 0.972 0.966 0.981 2 1.000 0.935 0.950 0.962 3 1.000 0.926 0.952 4 1.000 0.987 5 1.000 6
人脸识别（刑事侦察、安保系统）；

动态跟踪（警报系统）；
应用领域 4
生物信息知识发现 DNA的碱基对数目达到30亿 3万到4万个基因基因和基因组数据库（ GenBank 包含了已知的核算序列和蛋白质序列）核算序列数据库（EMBL）基因组数据库（GDB）蛋白质数据库（PIR、PSD、SWISS－PROT）
2.3 空间数据的特点
1）海量的数据 2）空间属性之间的关系 3）空间尺度特征
4）空间信息的不确定性等
5）空间维数的增高
2.4 空间数据挖掘的特点
空间数据之间存在的空间关系距离关系方位关系几何关系拓扑关系属性关系变量相关属性差异变量分配
… 空间关系
…
2.5 空间数据挖掘研究思路
空间数据挖掘
主讲：裴韬 (peit@) 助教：宋辞 (songc@)
本课程的主要内容
1、空间点聚类方法
2、Matlab实习 3、轨迹分析及聚类 4、网络分析及聚类 5、学术报告及写作
6、讨论一
7、讨论二
本课程的考核方法
1、实习作业（30’）
2、课程作业（60’） 3、课堂表现（10’）
课程作业的要求

三人一组；分工明确请根据课堂上讲的数据挖掘方法，结合自己的专业问题进行研究，可以解决一个应用问题，也可以提出一个申请。

文字报告、ppt演讲（8分钟演讲+5分钟答辩）
本讲的主要内容 1、数据挖掘的含义及内容 2、空间数据挖掘的含义及内容 3、空间聚类 3.1 层次聚类 3.2 划分聚类 3.3 密度聚类 4、本讲小结
挖掘方法
求同
Apriori
求异
聚类分析
数据挖掘的方法分类

数据总结与泛化聚类分类相关性分析关联规则提取异常分析。。。
从信息到决策的认知过程
数据数据挖掘知识发现信息
知识
决策分析决策
1.6 数据挖掘应用的注意点

机械化的思想机理不清所需的先验知识少归纳方法
0.1 0.1
0.4
0.3
0.2
0.1
划分聚类的算法流程
确定聚类数目K 选取K个点作为初始聚类中心计算各样本点到各聚类中心的距离
根据距聚类中心的距离划分样本点的归属重新计算各类别的中心 (转入第3步)
一般采用欧氏距离，也可采用其它的相似性度量系数
直到聚类中心坐标不再发生变化为止
实例及算法优缺点
cluster）划分聚类（partitioning cluster）密度聚类（density based cluster）
3.2 R型及Q型层次聚类
相似性度量层次聚类的算法流程
Q型层次聚类及实例
R型层次聚类
相似性度量

距离系数相关系数夹角余弦离差平方和其它的相似性统计量
空间数据挖掘研究
空间知识
求同空间关联求异空间异常
挖掘方法
求同自相关分析求异空间聚类
2.6 空间数据挖掘的任务
空间泛化
空间聚类空间分类空间相关性分析空间关联规则提取
空间异常分析
3 点集的数据挖掘
点的空间聚类

空间聚类的含义

空间聚类方法的分类
密度等值线
高密度点群
Density-Based Spatial Clustering of Applications with Noise (DBSCAN)
DBSCAN的基本概念

邻域核心点直接密度可达密度相连
邻域和核心点
O Q
P
e
MinPts=3
• 给定点半径e内的区域为e-邻域 • 如果一个点的e-邻域内至少包含最少数目（MinPts）的点则该点称为核心点。
* rij
(x
k 1 n k 1 n
n
ki
xi )(xkj x j )
2 2 1/ 2 ( x x ) kj j ] k 1 n
[ ( xki xi )

(x
k 1 n k 1
ki
xkj nxi x j )
n
2 2 2 2 2 1/ 2 [( x 2 n x ) ( x n x kj i j ) ] ki k 1
距离系数
设在m维空间中，点i的坐标为x ，点j的坐标为x ，那么点i和点j之间的距离为：
ki kj
* d ij [ ( xki xkj ) 2 ]1/ 2 k 1
m
(i, j 1,2,, n)
d值越小，表明点i和h的距离越近。
相关系数
如果有n块样本，每块样本具有m个属性，则任意两个属性i，j之间的相关系数为：
相似性度量 R型及Q型谱系聚类 K－means聚类密度聚类
3.1 空间聚类的含义
空间聚类是根据研究对象（样本或变量）的多种特征在数值上可能存在的相似性程度，将它们聚合为不同的点群的一种挖掘方法，使得聚类内的对象相似和类间的对象差异更大。
空间聚类的分类
层次聚类（hierarchical
(i, j 1,2, , m)
夹角余弦
在m维空间中的两个向量i，j其夹角余弦为：
cos ij
x
k 1
m
ki
xkj
2 1/ 2 kj
[ x
k 1
m
2 ki
x
k 1
m
(i, j 1,2, , m) ]

e商务文档

空间聚类

相关文档推荐：