当前位置:文档之家› 模糊聚类分析应用

模糊聚类分析应用

本科生毕业论文(设计)( 2011 届)论文(设计)题目模糊聚类分析应用作者舒海波系、专业理学分院数学与应用数学班级应数072指导教师(职称)何颖俞(讲师)字数 9403 字成果完成时间2011年4月10日杭州师范大学钱江学院教学部制模糊聚类分析应用数学与应用数学专业0702班指导教师何颖俞摘要:模糊聚类简单而言就是把数据中的指标分类。

本文利用的是最大树法对等价矩阵进行聚类,然后利用fcm法对相似矩阵的求法进行比较。

关键字:模糊聚类,等价矩阵,最大树,相似矩阵The application of fuzzy clusteringShuhaibo Instructor: HeYingYuAbstract: Fuzzy clustering is a method to classify the given data based on some indexes. In this paper I use the method of the maximal tree to classify the equivalent matrix, and then use clustering analysis method of FCM to comparison the solutions of the similar matrices.Key word: fuzzy clustering, equivalence matrix, the maximal tree, similar matrix目录1 绪论 (1)2模糊聚类分析方法 (1)2.1距离和相似系数 (1)2.2 F相似关系 (2)2.2.1定义 (2)2.2.2 定理 (2)2.3 聚类分析 (3)2.3.1最大树法 (4)3算法分类 (4)3.1聚类方法的分类 (5)3.1.1划分方法(partitioning method) (5)3.1.2层次方法(hierarchical method) (5)3.1.3基于密度的方法(density-based method) (5)3.1.4基于网格的方法(grid-based method) (5)3.1.5基于模型的方法(model-based method) (5)3.2.数据挖掘领域中常用的聚类算法 (5)3.2.1 CLARANS算法(随机搜索聚类算法) (5)3.2.2 CURE算法(利用代表点聚类) (6)3.2.3 BIRCH算法(利用层次方法的平衡迭代归约和聚类) (6)3.2.4 DBSCAN算法(基于高密度连接区域的密度聚类方法) (6)3.2.5 STING算法(统计信息风格) (7)3.2.6 COBWEB算法(流行的简单增量概念聚类算法) (7)3.2.6 模糊聚类算法FCM (8)3.3 聚类算法的性能比较 (8)4实际应用 (9)5总结 (13)参考文献: (13)致谢 (15)附录 (16)模糊聚类分析应用数学与应用数学专业072班舒海波指导教师何颖俞1 绪论聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。

严格的数学定义是较麻烦的,在不同问题中类的定义是不同的。

聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。

随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。

后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。

在社会经济领域中存在着大量分类问题,比如对我国30个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。

又比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。

由于要考察的物价指数很多,通常先对这些物价指数进行分类。

总之,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。

值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好。

聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

本文主要介绍模糊聚类法。

2模糊聚类分析方法2.1距离和相似系数为了将样品(或指标)进行分类,就需要研究样品之间关系。

目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。

比较相似的样品归为一类,不怎么相似的样品归为不同的类。

另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。

但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。

由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分:间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。

在间隔尺度中,如果存在绝对零点,又称比例尺度,本书并不严格区分比例尺度和间隔尺度。

有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如某产品分上、中、下三等,此三等有次序关系,但没有数量表示。

名义尺度:变量度量时、既没有数量表示,也没有次序关系,如某物体有红、黄、白三种颜色,又如医学化验中的阴性与阳性,市场供求中的“产”和“销”等。

不同类型的变量,在定义距离和相似系数时,其方法有很大差异,使用时必须注意。

研究比较多的是间隔尺度,因此本章主要给出间隔尺度的距离和相似系数的定义。

设有n 个样品,每个样品测得p 项指标(变量),原始资料阵为px x x np n n p p nx x x x x x x x x X X X X 2122221112112121 ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡= 其中(1,,;1,,)ij x i n j p ==为第i 个样品的第j 个指标的观测数据。

第i 个样品i X 为矩阵X 的第i 行所描述,所以任何两个样品XK 与XL 之间的相似性,可以通过矩阵X 中的第K 行与第L 行的相似程度来刻划;任何两个变量K x 与L x 之间的相似性,可以通过第K 列与第L 列的相似程度来刻划。

2.2 F 相似关系 2.2.1定义设)(U U F R ⨯∈,如果具有自反和对称关系,则称R 为U 上的一个F 相似关系(F 表示模糊) 当论域U 为有限时,F 相似关系可以用F 矩阵表示。

具有F 相似关系的矩阵,称为F 相似矩阵。

在实际应用时,通常只能得到自反矩阵和对称举证,即相似矩阵。

现在的问题是对具有相似关系的元素怎样进行分类,也就是如何将相似矩阵改造为等价矩阵。

2.2.2 定理若TR R =,则称R 为对称矩阵。

(1)若R I ⊇(I 是单位矩阵),则称R 为自反矩阵。

(2) 若2R R ⊇,则称R 为传递的F 关系。

(3) 若满足上面三点则称为等价矩阵。

定理1:相似矩阵n n R u ⨯∈的传递闭包是等价矩阵,且n R R ∧=。

证 只需要证明R ∧是自反的、对称的。

因R 是自反的,故R I ⊇,2R R ⊇。

不难得到nR 不减,因此1n k nk R R R I ∧===⊇,即R ∧是自反的。

因为TR R =,()()n TT nnR R R ==,故R ∧是对称的。

有定理1可见,要想将相似矩阵改变为等价矩阵,只需求相似矩阵的传递闭包。

定理2:设n n R u ⨯∈是自反矩阵,则任意自然数m n ≥,都有m R R ∧=证 由R 自反性推得2......n R R R ⊆⊆⊆⊆当m n ≥时,有1n m kk R R R R R ∞∧∧==⊆⊆=2.3 聚类分析 所谓聚类分析,就是用数学的方法对事物进行分类,它有广泛的实际应用。

在模糊数学产生之前,聚类分析已是数理统计多元分析的一个分支,然而现实的分类问题往往伴有模糊性。

例如,环境污染分类、春天连阴雨预报、临床症状资料分类、岩石分类,等等。

对这些伴有模糊性的聚类问题,用模糊数学语言来表达更为自然。

模糊聚类分析的步骤: 第一步 建立模糊相似关系。

设12{,,,}n U u u u =⋯为待分类的全体。

其中每一待分类对象由一组数据表征如下:12(,,...,)m i i i i u x x x =现在的问题是如何建立i u 和j u 之间的相似关系。

这有许多方法(这里选一些,列在下面),我们可以按照实际情况,选其中一种来求i u 与j u 的相似关系(,)i j ij R u u r =。

数量积法111.k kmij i j k i jr x x i jM ==⎧⎪=⎨≠⎪⎩∑当当其中M 为一适当选择之正数,满足,1max(.)k k mi j i jk M x x =≥∑相似系数法||||kk mi i j j ij xx x x r --=∑其中 11111,k k m i i j j k k x x x x m m ====∑∑最大最小法11min(,)max(,)kk kk mi j k ij m i j k xx r x x ===∑∑算术平均最小法11min(,)1()2kk k k mi j k ij mi j k xx r x x ===+∑∑几何平均最小法1min(,)kk mi j k ij mk xx r ===∑绝对值指数法1||mi j k k k x x ij r e=--∑=绝对值减数法111||k k m ij i j k i j r c x x i j==⎧⎪=⎨--≠⎪⎩∑当当其中,c 适当选取,使01ij r ≤≤。

选择上述哪一个方法好,要按实际情况而定。

在实际应用时,最好采用多种方法,选取分类最符合实际的结果。

第二步 改造相似关系为等价关系。

由第一步得到的矩阵R 一般只满足自反性和对称性,即R 是相似矩阵,需将它改造成模糊等价矩阵。

为此,采用平方法求出R 的传递闭包ˆR,ˆR 便是所求的模糊等价矩阵。

通过ˆR 便可对U 进行分类。

2.3.1最大树法在F 相似矩阵R 中,按ij r 的大小顺序依次用直线将元素连接起来,并标上权重。

相关主题