模糊聚类分析与模式识别
k 1 k 1 m m
(i, j 1,2,, n)
x1 (0.1 0.2 0.3) x2 (0.1 0.2 0.3)
2 ( xik x jk ) 2(0.1 0.2 0.3) 1.2
m
(x
k 1
k 1 m
ik
x jk ) 0.2 0.4 0.6 1.2 r12 1.2 / 1.2 1.0
传递性 k rik rkj rij , i, j 1, 2, , n. 1
n
20
Hale Waihona Puke 式中“○”表示矩阵的合成运算,类似矩阵乘法 运算,但要将元素的相乘改为求最小值、相加改为 求最大值。例如:
1 2 1 2 3 14 28 2 3 4 2 4 28 56 3 6 1 2 1 2 3 3 3 2 3 4 2 4 3 3 3 6
矩阵乘法运算
矩阵○运算
21
相似性度量的相关、相似系数矩阵满足自反性和 对称性,但不一定满足传递性。 对于传递性,可先计算R○R(记作R2),然后看其是否 满足传递性。若不满足,经过R○R=R2, R2○R2=R4 …运 算,可将R改造成满足传递性的模糊等价矩阵。
2.模糊等价矩阵的λ截矩阵 设R=[rij]n×n是模糊等价矩阵,对任意λ∈[0,1],称 Rλ=[rij(λ)]n×n为R=[rij]n×n的λ截矩阵,其中:
2
聚类分析的基本概念
• “聚类”就是按照一定的要求和规律对事物进行区分 和分类的过程, 在这一过程中没有任何关于分类的先 验知识 , 仅靠事物间的相似性作为类属划分的准则 , 属于无监督分类的范畴。 • “聚类分析”是指用数学的方法研究和处理给定对 象的分类。 • “人以群分, 物以类聚”, 聚类是一个古老的问题,它 伴随着人类社会的产生和发展而不断深化, 人类要认 识世界就必须区别不同的事物并认识事物间的相似 3 性。
R k 称为 R 的传递闭包矩阵,记为 t ( R ).
25
例:设有模糊相似矩阵
0.1 0.2 1 R 0.1 1 0.3 0.2 0.3 1 0.2 0.2 1 R R 0.2 1 0.3 R 2 0.2 0.3 1 0.2 0.2 1 2 2 R R 0.2 1 0.3 R 2 t ( R ). 0.2 0.3 1
5
聚类分析的基本概念
• 常用的模糊聚类分析方法大致可分为两大类:其一是
基于模糊关系(矩阵)的聚类分析方法, 而作为其中核心
直接聚类法、最大树法和编网法 ; 其二是基于目标函 数的聚类分析方法 , 称为模糊 C 均值 (FCM) 聚类算法 ( 或 称 为 模 糊 ISODATA 聚 类 分 析 法 ) (Iterative Self-
x 'ij
xij min{xij }
1i n
max{xij } min{xij }
1i n 1i n
(3)极差标准化
xij xi x ij max{ xij } min{ xij }
xij x (4)最大值规格化 ij Mj 其中: M j max( x1 j , x2 j ,, xnj )
模糊聚类分析与模式识别
1
前言
模糊数学是用数学方法研究和处理具有“模糊性” 现象的数学。所谓的模糊性主要是指客观事物差异 的中间过渡界线的“不分明性”。如储层的含油气 性、油田规模的大小,成油地质条件的优劣,圈闭 的形态,岩石的颜色等。这些模糊变量的描述或定 义是模糊的,各变量的内部分级没有明显的界线。 1965年美国控制论专家 L.A.Zadeh 提出这一概 念后,模糊数学得到迅速发展并应用到各个领域。
k 1
xik x jk 0.1 0.2 0.3 0.6 r12 0.6 / 0.6 1.0
上述(4)、(5)、(6)三种方法要求xij≥0,否则,要进行 适当变换。
18
2 距离法
一般地,取 rij 1 c(d ( xi , x j )) ,其中c , 为 适当选取的参数,它使得 0 rij 1.采用的距离有:
8
(1)标准差标准化
对于第 i 个变量进行标准化,就是将 xij 换成
x ij ,即
xij xij x j Sj (1 j m)
1 n 1 n 2 x j xij , S j ( x x ) . ij j 式中: n i 1 n i 1
9
(2)极差正规化
24
定义:设 R (rij )nn 是 n阶模糊方阵, I 是 n 阶 单位方阵,若 R 满足 (1) 自反性: I R ; (2) 对称性: RT R ; 则称 R 为模糊相似矩阵。
定理:设 R 是 n阶模糊相似矩阵,则存在一 个最小的自然数 k ( k n) , 使得 R k 为模糊等价矩 阵,且对一切大于 k 的自然数 l ,恒有 R l R k .
矩阵RR叫做R矩阵的截矩阵(λ≥0.6)
23
3.分类 由模糊等价矩阵的λ截矩阵可知,当rij=1时,i与j应 为同类,否则为异类。 让λ由大到小变化,可形成动态聚类图。
(1)模糊传递闭包法 步骤: ①求出模糊相似矩阵 R 的传递闭包 t ( R );
②按 由大到小进行聚类; ③画出动态聚类图。
k 1 m k 1 m
m
ik
x jk ) 0.1 0.2 0.3 0.6 x jk ) 0.4 0.5 0.6 1.5 r12 0.6 / 1.5 0.4
ik
x1 (0.1 0.2 0.3) x2 (0.1 0.2 0.3)
(x (x
r
( ) ij
1, rij 0 , rij
22
R=
1.00 0.89 0.42 0.41 0.27 0.22
0.89 1.00 0.46 0.45 0.30 0.25
0.42 0.46 1.00 0.77 0.68 0.56
0.41 0.45 0.77 1.00 0.62 0.59
m
①Hamming距离
d ( xi , x j ) xik x jk
k 1
②Euclid距离 ③Chebyshev距离
d ( xi , x j )
2 ( x x ) ik jk k 1
m
d ( xi , x j ) max xik x jk
1 k n
19
三、聚类 1.模糊等价矩阵 给定U上的一个模糊关系Rij=[rij]n×n, 若它满足: (1)自反性(rij=1 ); (2)对称性(rij=rji ); (3)传递性( R R R ); 则称R是U上的一个模糊等价矩阵。
14
(4)最大最小法
rij ( xik x jk ) / ( xik x jk )
k 1 k 1 m m
(i, j 1,2,, n)
符号 ∧和∨分别表示两个元素取小和取大。 例如:
15
x1 (0.1 0.2 0.3) x2 (0.4 0.5 0.6)
(x (x
7
一、数据标准化
1、建立数据矩阵
设论域U { x1 , x2 ,, xn }为被分类对象, 每个对象又由 m 个指标表示其性状:
xi { xi 1 , xi 2 ,, xim } ( i 1,2,, n)
则得到原始数据矩阵为 X ( xij )nm .
在实际问题中,不同的数据一般有不同 的量纲, 为了使有不同量纲的量能进行比较, 需要将数据规格化,常用的方法有:
0.27 0.30 0.68 0.62 1.00 0.69
0.22 0.25 0.56 0.59 0.69 1.00
将R中≥0.6的元素改为1,其它元素改为0
1.00 1.00 0.00 RR= 0.00 0.00 0.00 1.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00 1.00 1.00 0.00 0.00 0.00 1.00 1.00 1.00 0.00 0.00 0.00 1.00 1.00 1.00 1.00 0.00 0.00 0.00 0.00 1.00 1.00
1 rij 1 M
i=j
x
i 1
m
ik
x jk
i ≠j
i , j=1,2,…,n
其中 M max( xik x jk )
i j k 1
m
显然|rij|∈[0,1] ,若rij<0, 令rij’=(rij+1)/2,则rij’∈[0,1]。
12
相似系数法 ----(2)夹角余弦法
17
(6)几何平均最小法
rij ( xik x jk ) / xik x jk
k 1 k 1 m m
(i, j 1,2,, n)
x1 (0.1 0.2 0.3) x2 (0.1 0.2 0.3)
(x
k 1 m
m
ik
x jk ) 0.1 0.2 0.3 0.6
4
聚类分析的基本概念
• 模糊集理论的提出为软划分提供了有力的分析工具, 用 模糊数学的方法来处理聚类问题, 被称之为模糊聚类分 析。由于模糊聚类得到了样本属于各个类别的不确定 性程度, 表达了样本类属的中介性 , 更能客观地反映现 实世界, 从而成为聚类分析研究的主流。
• 模糊聚类已经在诸多领域获得了广泛的应用, 如模式识 别、图像处理、信道均衡、矢量量化编码、神经网络 的训练、参数估计、医学诊断、天气预报、食品分类、 水质分析等。
步骤的模糊分类,有下述的主要方法:模糊传递闭包法、