模糊数学方法及其应用论文题目:模糊聚类方法案例分析小组成员:王季光宋申辉兰洁陈倩芸肖仑杨洋吴云峰2013年10 月27 日模糊聚类分析方法1.1距离和相似系数为了将样品(或指标)进行分类,就需要研究样品之间关系。
目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。
比较相似的样品归为一类,不怎么相似的样品归为不同的类。
另一种方法是将一个样品看作P 维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。
但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。
由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分: 间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。
在间隔尺度中,如果存在绝对零点,又称比例尺度,本书并不严格区分比例尺度和间隔尺度。
有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如某产品分上、中、下三等,此三等有次序关系,但没有数量表示。
名义尺度:变量度量时、既没有数量表示,也没有次序关系,如某物体有红、黄、白三种颜色,又如医学化验中的阴性与阳性,市场供求中的“产”和“销”等。
不同类型的变量,在定义距离和相似系数时,其方法有很大差异,使用时必须注意。
研究比较多的是间隔尺度,因此本章主要给出间隔尺度的距离和相似系数的定义。
设有n 个样品,每个样品测得p 项指标(变量),原始资料阵为px x x np n n p p nx x x x x x x x x X X X X 2122221112112121 ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡= 其中(1,,;1,,)ij x i n j p ==为第i 个样品的第j 个指标的观测数据。
第i 个样品iX 为矩阵X 的第i 行所描述,所以任何两个样品XK 与XL 之间的相似性,可以通过矩阵X 中的第K 行与第L 行的相似程度来刻划;任何两个变量Kx 与Lx 之间的相似性,可以通过第K 列与第L 列的相似程度来刻划。
1.2 F 相似关系 1.2.1定义设)(U U F R ⨯∈,如果具有自反和对称关系,则称R 为U 上的一个F 相似关系(F 表示模糊)当论域U 为有限时,F 相似关系可以用F 矩阵表示。
具有F 相似关系的矩阵,称为F 相似矩阵。
在实际应用时,通常只能得到自反矩阵和对称举证,即相似矩阵。
现在的问题是对具有相似关系的元素怎样进行分类,也就是如何将相似矩阵改造为等价矩阵。
1.2.2 定理若TR R =,则称R 为对称矩阵。
(1)若R I ⊇(I 是单位矩阵),则称R 为自反矩阵。
(2)若2R R ⊇,则称R 为传递的F 关系。
(3)若满足上面三点则称为等价矩阵。
定理1:相似矩阵n nR u ⨯∈的传递闭包是等价矩阵,且nR R ∧=。
证 只需要证明R ∧是自反的、对称的。
因R 是自反的,故R I ⊇,2R R ⊇。
不难得到n R 不减,因此1nk n k R R R I∧===⊇,即R ∧是自反的。
因为TR R =,()()n T T n nR R R ==,故R ∧是对称的。
有定理1可见,要想将相似矩阵改变为等价矩阵,只需求相似矩阵的传递闭包。
定理2:设n nR u ⨯∈是自反矩阵,则任意自然数m n ≥,都有m R R ∧=证 由R 自反性推得2......n R R R ⊆⊆⊆⊆当m n ≥时,有1nmkk R R R R R∞∧∧==⊆⊆=1.3 聚类分析所谓聚类分析,就是用数学的方法对事物进行分类,它有广泛的实际应用。
在模糊数学产生之前,聚类分析已是数理统计多元分析的一个分支,然而现实的分类问题往往伴有模糊性。
例如,环境污染分类、春天连阴雨预报、临床症状资料分类、岩石分类,等等。
对这些伴有模糊性的聚类问题,用模糊数学语言来表达更为自然。
模糊聚类分析的步骤: 第一步:数据标准化 数据矩阵 设论域12{,,}n U x x x =为被分类的对象,每个对象由m 个指标表示其性状,即12(,,...,)m i i i i x x x x =于是得到原始数据矩阵为111212122212m m n n nm x x x x x x x x x ⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭数据标准化 在实际问题中,不同的数据一般有不同的量纲。
为了使有不同的量纲的量也能进行比较,通常需要对数据作适当的变换。
但是,即使这样,得到的数据也不一定在区间[0,1]上。
因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。
通常需要作如下集中变换。
1)平移•标准差变换 2)平移•极差变换 3)对数变换第二步 标定(建立模糊相似矩阵)设12{,,,}n U u u u =⋯为待分类的全体。
其中每一待分类对象由一组数据表征如下:12(,,...,)m i i i i u x x x =现在的问题是如何建立iu 和ju 之间的相似关系。
这有许多方法(这里选一些,列在下面),我们可以按照实际情况,选其中一种来求iu 与ju 的相似关系(,)i j ijR u u r =。
(1)形似系数法 数量积法111.kkmij i j k i jr xx i jM ==⎧⎪=⎨≠⎪⎩∑当当其中M 为一适当选择之正数,满足,1max(.)k k mi j i jk M x x =≥∑夹角余弦法mijjkij xx r ⋅=∑相关系数法||||kk mi i j j ij xx x x r --=∑其中 11111,k km i i j j k k x x x x m m ====∑∑最大最小法11min(,)max(,)kk kk mi j k ij m i j k xx r x x ===∑∑算术平均最小法11min(,)1()2kk kk mi j k ij mi j k xx r x x ===+∑∑几何平均最小法11min(,)kk mi j k ij mk xx r ===∑绝对值指数法1||mi j k k k x x ij r e=--∑=绝对值减数法111||k k m ij i j k i j r c x x i j==⎧⎪=⎨--≠⎪⎩∑当当其中,c 适当选取,使01ij r ≤≤。
(2)距离法1)直接距离法 海明距离 欧几里得距离 切比雪夫距离 2)倒数距离法 3)指数距离法选择上述哪一个方法好,要按实际情况而定。
在实际应用时,最好采用多种方法,选取分类最符合实际的结果。
第三步 聚类(求动态聚类图)。
由第一步得到的矩阵R 一般只满足自反性和对称性,即R 是相似矩阵,需将它改造成模糊等价矩阵。
为此,采用平方法求出R 的传递闭包ˆR ,ˆR 便是所求的模糊等价矩阵。
通过ˆR便可对U 进行分类。
实际应用具体问题如下:1x :地区生产总值(当年价格)(亿元);2x :第一产业增加值;3x :第二产业增加值;4x :第三产业增加值;5x :地方财政一般预算内收入;6x :工业企业数(个);7x :工业总产值(当年价格)(万元);8x :从业人员年平均人数(万人);9x :流动资产年平均余额(万元) ;10x:主营业务收入(万元)11x :利润总额(万元);12x:移动电话年末用户数(万户);13x :国际互联网用户数(户);14x :公路里程;15x:普通中学学生数(万人);16x:医院、卫生院数(个);17x:医生数(执业医师+执业助理医师)(个)。
17项指标来描述江西省11各市区经济发展水平情况。
现将11个不同经济发展水平的市区进行聚类。
到的动态聚类图如下:λ1352681147910分类数1110.8573100.685390.6620380.614470.563660.496950.486240.452730.4316201标准差变换下——相关系数法构造相似矩阵R采用传递闭包法进行聚类,得到的动态聚类图如下:λ1924567810311分类数1110.9526100.87290.868480.857270.840860.837350.8273540.7549130.716520.68881动态聚类图如下:λ1235478910116分类数1110.8904100.864490.839480.837670.783860.7733150.771940.720130.6949320.63561极差变换下——相关系数法构造相似矩阵R采用传递闭包法进行聚类,得到的动态聚类图如下:λ1924785103611分类数1110.9563100.936690.8859580.876770.85960.830850.756740.756530.69220.677211。