当前位置:
文档之家› 模糊数学教程第7章 模糊聚类分析
模糊数学教程第7章 模糊聚类分析
方法1. 令 rij
rij 1
2 rij m 方法2. 令 rij ( i j ), 其中 m min rij , i j M m
, 则 rij [0,1]
M max rij , 于是 rij [0,1] i j
(2)夹角余弦法
rij
四、聚类 选择一种合适的聚类方法,便可以得到分类结果.
§7.2 基于模糊等价关系的传递闭包法
一、传递闭包法 Basic idea : 据上面标定所得的模糊矩阵R, 求出其传递闭包 t ( R), R t ( R ) 为模糊等价矩阵, 然后由§3.4之方法,令从1降到0,便可按需要 对U进行分类,这样的聚类方法,称传递闭包法
x j 2 , , x jm ), x jk 为描述元素 u j 的第k个特征的数据,
又设c为对应于值的类数, ni 为第i类元素的个数, 1 ni i i i 第i类元素记为 u1 , , uni , 记 xk x jk ( k 1,, m ) ni j 1 i u i ( x1i , , xm ) 为第i类元素第k个特征的平均值, 称 为第i 类的聚类中心向量; u ( x1 , , xm ) 为全体元素 1 n 的中心向量, 而 xk x jk , k 1,, m, 于是称 n j 1
直 接 聚 类 法
编 网 法
§7.4 基于模糊c-划分的模糊聚类法
一、c-划分
1、普通集合上的c-划分
集合U {u1 , u2 ,..., un }上的c-划分是指U的c个子集
{ Ai : i 1,, c }(2 c n), 满足:
①
A U;
i 1 i
n
② Ai A j ( i j )
k 1
k 1 m
ik
x jk )
(5)绝对值减数法
rij 1 c xik x jk
k 1
m
其中c适当选取,使 rij 在[0 ,1]中且分散开. 其它方法请参阅教材!以上方法 究竟选哪一种,视问题实际特点而定, 通过标定求出相似系数 rij 后,
可得模糊相似矩阵 R ( rij )
第7章 模糊聚类分析
一、模糊聚类分析及其步骤 二、基于模糊等价关系的传递闭包法 三、基于模糊相似关系的直接聚类法 四、基于模糊c-划分的模糊聚类法
模糊聚类分析是一类应用很广泛的数学 方法,就其理论来说,大致分为三种: 一是基于模糊等价关系的传递闭包法, 二是基于模糊相似关系的直接聚类法, 三是基于模糊c-划分的模糊聚类法。
则A称为U的模糊c-划分矩阵, 记
c n i 1 j 1
M f c { A A (aij ) M cn , aij [0,1], aij 1,0 aij n}
M f c 称为U的c类软分类空间.
显然
Mc M f c
二、目标函数聚类法和硬c-均值算法 Basic idea : 在目标函数法中, 目标函数是对给定c的所有候选分类 进行度量,最优的类就是使目标函数达到局部最小的类 对于硬分类情形, 目标函数一般选为总体组内误差平 方和.其定义如下:
1 0.4 R 8 0.8 0.5 0.5
0.4 0.8 0.5 0.5 1 0.4 0.4 0.4 0.4 1 0.5 0.5 R 4 0.4 0.5 1 0.6 0.4 0.5 0.6 1
所以传递闭包 R R 4 , 然后依次取的截矩阵 R , 并按 R 将U分成等价类. 若=1, 便将U分为5类, 即 {u1 },{u2 },{u3 },{u4 },{u5 }; 若=0.8, 便将U分为4类, 即 {u1 , u3 },{u2 },{u4 },{u5 }; 若=0.6, 便将U分为3类, 即 {u1 , u3 },{u2 },{u4 , u5 };
若=0.5, 便将U分为2类, 即 {u1 , u2 , u3 , u4 },{u2 }; 若=0.4, 便将U全归为为1类, 即 {u1 , u2 , u3 , u4 , u5 } 聚类图见教材§3.4图3-3 二、最佳或值的确定 聚类图给出各值对应的分类,形成一种动态聚 类,便于全面了解元素聚类, 然后根据实际需要选 择其或值便可确定一种分类, 至于如何选择或值, 使分类更合理, 除了凭经验外, 还可用F-统计量来 选取. 设 U {u1 , u2 ,..., un } 为待分事物的全体, u j ( x j 1 ,
记矩阵 A (aij )cn ( A1 , A2 ,, Ac )T , 其中 aij 1,
若 u j Ai ( u j 属于第 i 类); aij 0, 若 u j Ai 满足:
⑴ j , aij 1 (表示每个 u j 属于且只属于某一类)
i 1
c
⑵ i ,0 aij n (表示每类 Ai 至少有一个元素)
据 xi 1 , xi 2 ,..., xi n 来表征,用 rij 表示元素 ui , u j 的相似 系数,0 rij 1, rij 0 表示 ui , u j 截然不同,毫无相似 之处;rij 1 表示 ui , u j 完全相似或等同;当i=j时,rij
就是 ui 和自己的相似程度,恒取1
(2)用逐次平方法计算R的传递闭包 t ( R) R, 因为
1 0.3 R 2 0.8 0.5 0.5 1 0.4 4 R 0.8 0.5 0.5
0.3 0.8 0.5 0.5 1 0.2 0.4 0.4 0.2 1 0.3 0.1 R 0.4 0.5 1 0.6 0.4 0.3 0.6 1 0.4 0.8 0.5 0.5 1 0.4 0.4 0.4 R2 0.4 1 0.5 0.5 0.4 0.5 1 0.6 0.4 0.5 0.6 1
1 0 0 0 若分类矩阵为 A 0 1 0 0 , 则对应U的分类 0 0 1 1
为 {u1 },{u2 },{u3 , u4 }. 记 Vn 为 c n 实矩阵的集合, 且 c
c i 1
M c { A A (aij ) Vn , aij {0,1}, aij 1,0 aij n} c
§7.1 模糊聚类分析及步骤
数学上,把按一定要求和规律,对事物进行分类 的方法叫聚类分析,它属于数理统计多元分析的一 支,是对清晰事物进行分类的一种方法,然而现实 生活中,事物间的界限往往不一定很清晰,很多分 类问题,都多伴有模糊性,如天气,晴、阴、雨天 之间就无绝对的界限,普通的聚类分析对此是无能 为力的;用模糊数学的语言和方法来描述和解决就 成为自然和方便的了,这就产生了模糊聚类分析
其中x原始数据,x 为其的平均值,为其标准差
三、标定 所谓标定,就是根据实际情况,按一个准 或某种方法,给论域 U中的元素两两之间 都赋以[0,1]间的一个数,叫做相似系数,其大小表征 两个元素彼此接近或相似的程度;
u 设 U {u1 , u2 ,..., un } 为待分事物的全体, i 由一组数
行分类. 解: (1)按绝对值减数法进行标定,如取c=0.1,则
rij 1 0.1 xik x jk
k 1 4
于是得模糊相似矩阵
1 0.1 R 0.8 0.5 0.3 0.1 0.8 0.5 0.3 1 0.1 0.2 0.4 0.1 1 0.3 0.1 0.2 0.3 1 0.6 0.4 0.1 0.6 1
§7.3 基于模糊相似关系的直接聚类法
Basic idea : 用传递闭包法分类需要先建立U上 的模糊等价矩阵, 但矩阵阶数较高时, 计算便变得较 困难.而采用相似矩阵R进行分类的直接聚类法其计算 量则要小很多,这种方法聚类的原则是:
ui 与 u j 在水平上同类在R的图中, 存在一条权重
不低于的路联结 ui 与 u j
模糊聚类分析的步骤: 一、选择统计指标 根据实际问题,选择那些具有明确的意义,有较 强的分辨力和代表性的特征,作为分类事物的统计指 标,统计指标选择的如何,对分类结果有直接的影响; 二、数据标准化(正规化) 把代表事物各特征的统计指标的数据进行处理,使 之便于分析和比较,数据标准化可这样进行:令 x x x
例7.1 环境单元分类 设 U {u1 , u2 ,..., un } 为五个环境单元的集合,每个 环境单元有空气、水分、土壤、作物四个要素,环境
单元的污染状况由污染物在四个要素中含量的超限度
u 来描述,若其污染数据为: 1 (5,5,3,2), u2 (2,3,4,5), u3 (5,5,2,3), u4 (1,5,3,1), u5 (2,4,5,1), 试对U进
x
k 1 m 2 k 1
m
ik
x jk
m 2 jk
x x
ik k 1
如果 rij 中出现负值,也可采用上面方法调整.
(3)最大最小法
rij
(x
k 1 m k 1
m
ik
x jk ) x jk )
(x
m
ik
(4)算术平均最小法
rij 2 ( xik x jk )
(x
F (
Hale Waihona Puke i 1 cni u ui
2
(c 1)
) / (
i 1 j 1
c
ni
ni u u
i j
i
2
(n c )
)
为F-统计量, 其中 u i u
元素 uij , u i 的距离.
i ( xk xk )2 为第i类中心 k 1
m
例7.2 气象预报中最佳或值的选取(数据分析见教材 第156页)