当前位置:文档之家› 模式识别及其在图像处理中的应用

模式识别及其在图像处理中的应用

模式识别及其在图像处理中的应用摘要:随着计算机和人工智能技术的发展,模式识别在图像处理中的应用日益广泛。

综述了模式识别在图像处理中特征提取、主要的识别方法(统计决策法、句法识别、模糊识别、神经网络)及其存在的问题,并且对近年来模式识别的新进展——支持向量机与仿生模式识别做了分析和总结,最后讨论了模式识别亟待解决的问题并对其发展进行了展望。

关键词:模式识别;图像处理;特征提取;识别方法模式识别诞生于20世纪20年代,随着计算机的出现和人工智能的发展,模式识别在60年代初迅速发展成一门学科。

它所研究的理论和方法在很多学科和领域中得到广泛的重视,推动了人工智能系统的发展,扩大了计算机应用的可能性。

图像处理就是模式识别方法的一个重要领域,目前广泛应用的文字识别( MNO)就是模式识别在图像处理中的一个典型应用。

1.模式识别的基本框架模式识别在不同的文献中给出的定义不同。

一般认为,模式是通过对具体的事物进行观测所得到的具有时间与空间分布的信息,模式所属的类别或同一类中模式的总体称为模式类,其中个别具体的模式往往称为样本。

模式识别就是研究通过计算机自动地(或者人为进行少量干预)将待识别的模式分配到各个模式类中的技术。

模式识别的基本框架如图 1所示。

根据有无标准样本,模式识别可分为监督识别方法和非监督识别方法。

监督识别方法是在已知训练样本所属类别的条件下设计分类器,通过该分类器对待识样本进行识别的方法。

如图1,标准样本集中的样本经过预处理、选择与提取特征后设计分类器,分类器的性能与样本集的大小、分布等有关。

待检样本经过预处理、选择与提取特征后进入分类器,得到分类结果或识别结果。

非监督模式识别方法是在没有样本所属类别信息的情况下直接根据某种规则进行分类决策。

应用于图像处理中的模式识别方法大多为有监督模式识别法,例如人脸检测、车牌识别等。

无监督的模式识别方法主要用于图像分割、图像压缩、遥感图像的识别等。

模式识别过程可以看作从样本空间到类别空间的一个映射过程。

如果把一个具有n个特征作为参量的n维特征空间划分为不同的区域,那么每个区域与一类模式类相对应。

其中,特征选择与提取是模式识别的一个重要环节,如果所选取的特征能够比较全面反映类的本质特征,那么分类器就比较容易设计;否则,分类器设计的难度就增加。

因此特征选择和提取是模式识别研究的一项重要内容。

2.特征提取和特征选择原始样本往往处于一个高维空间,特征提取指的是通过映射的方法用低维空间来表示样本的过程。

特征提取后样本的可分性应该更好,分类器更易设计。

常用的方法有主元分析法(PCA)、线性判别分析、核函数主元分析(Kernel PCA)、独立主元分析法(ICA)、自组织映射(SOM)方法等。

特征提取在图像处理(例如图像分割、图像识别、图像检索等)中得到了广泛的应用。

另外在图像压缩中也广泛应用到DCT变换以去除图像的空间冗余。

不同的模式识别问题特征差别可能很大,因而特征提取方法也不尽相同。

每一种特征提取方法只适合解决某些特定范围的问题,例如对于服从高斯型分布的线性相关特征,采用PCA方法比较好,用其他方法提取特征结果可能不是“最优”。

特征提取的优劣要根据一定的判据来衡量,由于模式识别中没有一个统一的衡量特征优劣的判据,所谓的最优是在特定准则下取得的,是相对的最优。

特征提取后的各个特征的物理意义有时不是很直观,往往很难看出各个特征对分类的影响,有的特征可能无助于分类器的设计,甚至会降低分类器的性能。

因此要在这些特征中选出最适合分类器设计的特征。

换句话说,特征选择就是从一组特征D中挑选出一些对分类最有效特征d(D>d)的过程。

实际中特征选择和提取往往结合使用。

为了判断提取和选择的特征对分类的有效性,人们提出各种衡量特征分类性能的判据。

最直接最有效的判据是计算分类器错误概率,但一般情况下,错误概率的计算很复杂,有时甚至无法计算。

因此人们提出一些其他的判据。

最简单的判据是用于可分性判据的类内类间距离判据,其基本原则是类内距离最小、类间距离最大的特征为最优特征。

一方面,这一判据物理意义明显,计算方便,但是距离的定义不同,得到的特征不同;另一方面,它和概率分布没有直接关系。

为此人们提出基于概率分布的可分性判据,这类判据计算比较复杂,也很难得到和错误概率的直接解析关系式。

另外还有基于熵函数的可分性判据等,这些判据在特征提取中都得到了广泛的应用。

选定可分性判据后,通过穷举法可以得到特征选择的最优解,但是当特征个数比较多时,这种方法由于计算量太大而难以实现。

常用的方法有分支和定界(branch and bound)算法、顺序前进法(SFS)、顺序后退法(SBS)等,相对于穷举法,这些方法都不同程度地减小了计算量,但是都不能保证得到最优解,往往得到的是次优解。

由于特征选择是在进行相应的特征组合后判断其分类能力的,因此可以采用解决优化问题的方法来解决。

常用的算法如遗传算法、模拟退火算法,但它们计算都比较复杂。

以上提到的判据在大多情况下和错误概率没有直接关系,用以这些度量为基础的某个判据的最优化对特征进行变换后所设计的分类器的错误概率未必最小;同一个问题特征采用的判据不同得到最优解也不完全相同;此外,特征选择结果的可靠性和训练样本个数有关。

如果样本个数太少,根据某种判据得出的最优解和实际的最优特征有时差别很大,这是因为训练样本集中包含的分类信息不足。

由此可见,选择最优特征需要具备3个条件:样本个数足够能够覆盖样本集的分类信息;有一种比较好的分类判据;一个切实可行的选择算法。

实际中,这3个条件很难完全满足。

因此,针对具体的模式识别问题选择最优特征仍是一件比较困难的事,这些问题仍需要进一步的研究。

提取和选择特征之后,分类和识别效果的优劣取决于所设计的分类器的性质。

设计分类器的主要方法也就是模式识别的主要方法。

3.模式识别的主要方法及其在图像处理中的应用模式识别方法大致可以分为4类:统计决策法、结构模式识别方法、模糊模式识别方法与基于人工智能方法。

其中基于人工智能的方法本文主要介绍人工神经网络模式识别方法。

前两种方法发展得比较早,理论相对也比较成熟,在早期的模式识别中应用较多。

后两种方法目前的应用较多,由于模糊方法更合乎逻辑、神经网络方法具有较强的解决复杂模式识别的能力,因此日益得到人们的重视。

3.1统计决策法统计决策法以概率论和数理统计为基础,它包括参数方法和非参数方法。

参数方法主要以Bayes决策准则为指导。

其中最小错误率和最小风险贝叶斯决策是最常用的两种决策方法。

假定特征对于给定类的影响独立于其他特征,在决策分类的类别N已知与各类别的先验概率P(wi)及类条件概率密度p(x|wi)已知的情况下,对于一特征矢量x根据式(1)计算待检模式在各类中发生的后验概率p(x|wi),后验概率最大的类别即为该模式所属类别。

在这样的条件下,模式识别问题转化为一个后验概率的计算问题。

在贝叶斯决策的基础上,根据各种错误决策造成损失的不同,人们提出基于贝叶斯风险的决策,即计算给定特征矢量x在各种决策中的条件风险大小,找出其中风险最小的决策。

实际上对于具体的模式识别问题,先验概率和类条件概率密度很难精确知道。

先验概率根据样本总数可大致估计,类条件概率密度可采用统计学中的最大似然估计法、Bayes估计法等进行估计。

这类方法应用于图像分割、图像复原以及图像识别等方面。

在图像分割中,假定图中的数据是服从K个概率密度混合分布的样本,然后估计概率密度函数的参数,最后计算后验概率或风险,对像素进行归类,从而达到分割图像的目的。

一般情况下,往往假定概率密度函数是高斯型的,这一方面很多情况下样本的分布接近高斯分布,另一方面是数学上处理相对比较简单。

和图像分割的原理类似,图像识别也是对图像的某些特征采用贝叶斯决策的方法设计分类器,根据分类器对未知图像的特征进行识别。

参数估计方法的理论基础是样本数目趋近于无穷大时的渐进理论。

在样本数目很大时,参数估计的结果才趋近于真实的模型。

然而实际样本数目总是有限的,很难满足这一要求。

另外参数估计的另一个前提条件是特征独立性,这一点有时和实际差别较大。

实际上在样本数量不是很大的情况下,往往根据样本直接设计分类器,这就是非参数方法。

这类方法物理意义直观,但所得的结果和错误率往往没有直接联系,所设计的分类器不能保证最优。

比较典型的方法如线性分类器、最近邻方法、K均值聚类法等。

在图像压缩领域的矢量量化编码算法中,码书的训练就是一个典型的聚类过程,压缩的效果和聚类的结果关系很大。

在图像分割中,采用对像素或图像的其他特征进行聚类,达到图像分割的目的。

然而,统计决策理论主要集中在数量的统计关系上而忽略了刻画模式的结构特征。

图像处理往往与图像的结构信息有关,对于很复杂的图像,要求的特征量非常巨大,要把某一模式准确分类很困难,这时采用统计分类方法很难实现,因此设法分割出图像的基元子模式,将基元按照一定句法关系组合来代替原图像进行分类,这就涉及到结构模式识别的问题。

3.2结构模式识别结构模式识别是利用模式的结构描述与句法描述之间的相似性对模式进行分类。

每个模式由它的各个子部分(称为子模式或模式基元)的组合来表示。

对模式的识别常以句法分析的方式进行,即依据给定的一组句法规则来剖析模式的结构。

当模式中每一个基元被辨认后,识别过程就可通过执行语法分析来实现。

选择合适的基元是结构模式识别的关键。

基元应具有“ 结构简单、含义明确、能方便地描述数据、易于抽取、结构信息少”等特点。

由于基元选择的不确定性以及基元特征的多样性,实际应用中有时很难同时满足以上特点,所以有必要在基元的复杂性和易识别性之间取一个恰当的折衷。

结构模式识别主要用于文字识别、遥感图形的识别与分析、纹理图像的分析中。

该方法的特点是识别方便,能够反映模式的结构特征,能描述模式的性质,对图像畸变的抗干扰能力较强。

如何选择基元是本方法的一个关键问题,尤其是当存在干扰及噪声时,抽取基元更困难,且易失误。

基于统计决策和结构模式识别在早期的模式识别中应用比较多,随着人们对模式识别要求的提高,在解决一些复杂的模式识别问题时,上述方法的局限性越来越明显。

模糊逻辑思想和神经网络的提出,为人们解决模式识别问题提供了新的思路。

3.3模糊模式识别1965年Zadeh提出了他著名的模糊集理论,使人们认识事物的传统二值0,1逻辑转化为[ 0,1]区间上的逻辑,这种刻画事物的方法改变了人们以往单纯地通过事物内涵来描述其特征的片面方式,并提供了能综合事物内涵与外延性态的合理数学模型——隶属度函数。

对于 1、2 两类问题,传统二值逻辑认为样本 3 要么属于 1,要么属于 2,但是模糊逻辑认为 3 既属于1,又属于 2,二者的区别在于 3 在这两类中的隶属度不同。

相关主题