当前位置:文档之家› 模糊数学在数据挖掘领域综述

模糊数学在数据挖掘领域综述

模糊数学在数据挖掘研究综述一、模糊数学关于数学的分类,根据所研究对象的确定性可以分为经典数学、随机数学以及模糊数学。

三者的关系如图1所示。

经典数学建立在集合论的基础上,一个对象对于一个集合要么属于,要么不属于,两者必居其一,且仅居其一,绝不可模棱两可,由于这个要求,大大限制了数学的应用范围,使它无法处理日常生活中大量的不明确的模糊现象与概念。

随着发展,过去那些与数学毫无关系或关系不大的学科如生物学,心理学,等都迫切要求定量化和数学化。

图1依照研究对象是否确定的数学分类在日常生活中,我们经常会遇到一些模糊不清的概念。

例如,“高个子”、“矮个子”等。

如果把1.80米的人算高个子,那么,身高1.76米的人算不算高个子呢?这就很难说,因为“高个子”,“矮个子”并没有二者明确的标准,因而这些概念就显得模糊不清。

为了适应这些学科自身的特点,只有通过改造数学,使它应用的面更为广泛。

模糊数学就是研究事物这种模糊性质的一门数学学科。

模糊数学诞生于1965年,创始人是美国自动控制专家查德,他最早提出了模糊集合的概念,引入了隶属函数。

自诞生之日起,就与电子计算机息息相关。

今天精确的数学计算当然是不可少的,然而,当我们要求脑功能的时候,精确这个长处反而成了短处。

例如,我们在判别走过的人是谁时,总是将来人的高矮,胖瘦、走路姿势与大脑存储的样子进行比较,从而作出判断。

一般说来,这不是件难事,即使是分别多年的老友,也会很快地认出他来,但是若让计算机做这件事,使用精确数学就太复杂了。

得测量来人的身高、体重、手臂摆的角度以及鞋底对地面的正压力、磨擦力、速度、加速度等数据,而且非要精确到后几十位才肯罢休。

如果有位熟人最近稍为瘦了或胖了一些,计算机就“翻脸不认了”。

显然,这样的“精确”容易使人糊涂。

由此可见,要使计算机能模拟人功能,一定程度的模糊是必要的。

模糊数学就是在这样的背景下诞生的。

随机数学与模糊数学都是对不确定性量的研究,但与模糊数学不同的是,随机数学是研究随机现象统计规律性的一个数学分支,涉及四个主要部分:概率论、随机过程、数理统计、随机运筹。

随机数学更强调对数据的统计规律;而模糊数学强调的是变量的定义的模糊性。

模糊数学是一门新兴学科,过去那些与数学毫不相关或关系不大的学科(如生物学、心理学、语言学、社会科学等)都有可能用定量化和数学化加以描述和处理,从而使数学的应用范围大大扩展。

它已初步应用于模糊控制、模糊识别、模糊聚类分析、模糊决策、模糊评判、系统理论、信息检索、医学、生物学等各个方面,并且在气象、结构力学、控制、心理学等方面已有具体的研究成果。

模糊数学最重要的应用领域是计算机职能,它与新一代计算机的研制有密切的联系。

二、模糊计算精确的数学语言、定量化分析传统计算的方式无法解决概念模糊的问题,如大房子,小个子等,所以需要引入模糊计算来对模糊概念变量的计算。

普通计算一般是指函数式,自变量与因变量是一一对应的关系。

而模糊计算,一个变量,可以对应于多个状态值。

当然,这些个状态与普通的函数表示也不是完全相同的,并不是完全确定的,它们有一个隶属度,或者说概率,来表示这个状态。

隶属度表示程度,它的值越大,表明这个状态的概率越高,反之则表明这个状态的概率越低,其原因在于有一些概念模糊的问题,需要模糊计算来处理。

本节讨论关于模糊数学计算的基本知识。

1、模糊集、隶属函数及模糊集的运算对于普通集合A ,对x ∀,有A x ∈或A x ∉。

如果要进一步描述一个人属于年轻人的程度大小时,仅用特征函数就不够了。

模糊集理论将普通集合的特征函数的值域推广到[0,1]闭区间内,取值的函数以度量这种程度的大小,这个函数(记为)(x E )称为集合E 的隶属函数。

即对于每一个元素x ,有[0,1]内的一个数)(x E 与之对应。

模糊子集的定义:射给定论域U ,U 到[0,1]上的任一映射:))((],1,0[:U u u A u U A ∈∀→→都确定了U 上的一个模糊集合,简称为模糊子集。

)(u A 称为元素u 属于模糊集A 的隶属度。

映射所表示的函数称为隶属函数。

模糊集合的运算:)}(),.....,(),({21n u A u A u A A =,)}(),.....,(),({21n u B u B u B B =,并集:)}()(),.....,()(),()({2211n n u B u A u B u A u B u A B A ∨∨∨=⋃,交集:)}()(),.....,()(),()({2211n n u B u A u B u A u B u A B A ∧∧∧=⋂,补集:)}(1),.....,(1),(1{21n c u A u A u A A ---=, 包含:B A u B u A U u ⊂≤∈∀,则有有若)()(,。

2、模糊数学基本定理①、模糊截积:已知U 上模糊子集))((],1,0[:U u u A u U A ∈∀→→对]1,0[∈λ,A λ也是U 上模糊集,其隶属函数为:)(),())((U u u A u A ∈∀∧=λλ; 称为A λ为λ与A 的模糊截积。

②、分解定理1:已知模糊子集)(U F A ∈,则λλλA A ]1,0[∈⋃= 推论1:对,U u ∈∀}],1,0[{)(λλλA u u A ∈∈∨=③、分解定理2:已知模糊子集)(U F A ∈,则S A A λλλ]1,0[∈⋃= 推论2:对,U u ∈∀}],1,0[{)(S A u u A λλλ∈∈∨=三、模糊聚类1、模糊聚类分析法与聚类分析法模糊聚类分析是聚类分析的一种。

聚类分析按照不同的分类标准可以进行不同的分类。

就好像人按照性别可以分成男人和女人,按照年龄可以分为老中青一样。

聚类分析如果按照隶属度的取值范围可以分为两类,一类叫硬聚类算法,另一类就是模糊聚类算法。

隶属度的概念是从模糊集理论里引申出来的。

传统硬聚类算法隶属度只有两个值 0 和1。

也就是说一个样本只能完全属于某一个类或者完全不属于某一个类。

举个例子,把温度分为两类,大于10度为热,小于或者等于10度为冷,这就是典型的“硬隶属度”概念。

那么不论是5度 还是负100度都属于冷这个类,而不属于热这个类的。

而模糊集里的隶属度是一个取值在[0 1]区间内的数。

一个样本同时属于所有的类,但是通过隶属度的大小来区分其差异。

比如5度,可能属于冷这类的隶属度值为0.7,而属于热这个类的值为0.3。

这样做就比较合理,硬聚类也可以看做模糊聚类的一个特例。

2、模糊聚类步骤模糊聚类法和一般的聚类方法相似,先将数据进行标准化,计算变量间相似矩阵或样品间的距离矩阵,将其元素压缩到0与1之间形成模糊相似矩阵,进一步改造为模糊等价矩阵,最后取不同的标准λ,得到不同的-λ截阵,从而就可以得到不同的类。

具体步骤如下: 第一步:数据标准化1).数据矩阵设论域},...,,{21n x x x U =为被分类的对象,每个对象又由m 个指标表示其性状:},...,,{21im i i i x x x x =(n i ,...,2,1=)于是得到原始数据矩阵为⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡nm n n m m x x x x x x x x x (2122221)112112).数据标准化在实际问题中,不同的数据一般有不同的量纲。

为了使有不同的量纲的量也能进行比较,通常需要对数据作适当的变换。

但是,即使这样得到的数据也不一定在区间[0,1]上。

因此,这里所说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。

通常需要作如下变换:平移标准差变换、平移级差变换。

第二步:建立模糊相似矩阵设论},...,,{},,...,,{2121im i i i n x x x x x x x U ==依照传统的方法确定相似系数,建立模糊相似矩阵,i x 与j x 的相似程度),(j i ij x x R r =。

可根据问题的性质,选取下列公式之一计算ij r :数量积法、夹角余弦法、最大最小法、算术平均最小法、几何平均最小法等等。

第三步:进行模糊聚类1).基于模糊等价矩阵聚类方法一般来说。

上述模糊矩阵)(ij r R =是一个模糊相似矩阵,不一定具有等价性,即R 不一定是模糊等价矩阵。

这可以通过模糊矩阵的褶积将其转化为模糊等价阵,具体方法如下: 计算2R = R R ⋅,4R = 22R R ⋅,8R = 44R R ⋅,…,直到满足k k R R=2这时模糊矩阵k R 便是一个模糊等价矩阵。

记kij R r R ==)~(~。

将ij r ~按由大到小的顺序排列,从λ=1开始,沿着ij r ~由大到小的次序依次取λ=ij r ~,求R ~的相应的-λ截阵λR ~,其中元素为1的表示将其对应的两个变量(或样品)归为一类,随着λ的变小,其合并的类越来越多,最终当λ=}~{min ,1ij nj i r ≤≤时,将全部变量(或样品)归为一个大类。

按λ值画出聚类的谱系图2).直接聚类法所谓直接聚类法是指:在建立模糊相似矩阵之后,不去求传递闭包)(R t ,直接从相似矩阵出发,求得聚类图。

其步骤如下:① 、取1λ=1(最大值),对每个i x 作相似类R i x ][:R i x ][={j x |1=ij r },即将满足1=ij r 的i x 与j x 放在一类,构成相似类。

相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现R i x ][={i x ,k x },R j x ][={j x ,k x },[i x ]⋂[j x ]φ≠.此时只要将有公共元素的相似类合并,即可得1λ=1水平上的等价分类。

②、取2λ为次大值,从R 中直接找出相似程度为2λ的元素对(i x ,j x )(即2λ=ij r ),相应的将对应于1λ=1的等价分类中i x 所在类与j x 所在类合并,将所有这些情况合并后,即得对应2λ的等价分类。

③、取3λ为第三大值,从R 中直接找出相似程度为3λ的元素对(i x ,j x )(即3λ=ij r ),类似的将对应于2λ的等价分类中i x 所在类与j x 所在类合并,将所有这些情况合并后,即得对应3λ的等价分类。

④、依次类推,直到合并到U 成为一类为止。

四、模糊数学与模糊数据挖掘1、模糊数据挖掘在过去几十年里,模糊集理论已成功地应用于模式识别、智能控制、机器学习、人工智能等诸多领域的研究。

长期以来,知识表示和知识推理是模糊集理论研究的一个主要方向,其研究成果为构建基于知识的智能系统设计提供理论依据。

然而,知识获取成为制约基于知识的智能系统进一步发展的瓶颈。

面对大量的数据,单靠人工去收集、整理以及采用传统的数据分析处理工具来获取知识,已无法解决这个问题。

相关主题