第1章图像视觉特征的提取和表示1.1引言图像视觉特征的提取和表示是将图像的视觉信息转化成计算机能够识别和处理的定量形式的过程,是基于视觉内容的图像分类与检索的关键技术,因此,图像视觉特征的提取和表示一直是图像内容分析领域中一个非常活跃的课题。
图像底层视觉特征一定程度上能够反映图像的内容,可以描述图像所表达的意义,因此,研究图像底层视觉特征是实现图像分类与检索的第一步。
一般来说,随着具体应用的不同,选用的底层特征也应有所不同,在特定的具体应用中,不同底层视觉特征的选取及不同的描述方式,对图像分类与检索的性能有很大的影响。
通常认为,一种良好的图像视觉特征的提取和表示应满足以下几个要求:(1)提取简单,时间和空间复杂度低。
(2)区分能力强,对图像视觉内容相似的图像其特征描述之间也应相近,反之,对于视觉内容不相似的图像其特征描述之间应有一定的差别。
(3)与人的视觉感知相近,对人的视觉感觉相近的图像其特征描述之间也相近,对人的视觉感知有差别的图像其特征描述之间也有一定的差别。
(4)抗干扰能力强,鲁棒性好,对图像大小,方向不敏感,具有几何平移,旋转不变性。
本章重点讨论当前比较成熟的特征提取方法,在此基础上选取合适的特征提取方法,用于图像分类与检索系统的特征提取模块。
接下来,将依次介绍颜色,纹理,形状等特征的提取和表示方法,最后对各种特征的特点加以比较。
1.2颜色特征的提取和表示颜色是图像视觉信息的一个重要特征,是图像分类与检索中最为广泛应用的特征之一。
一般来说同一类别的图像之间颜色信息具有一定的相似性,不同类别的图像,其颜色信息具有一定的差异。
相对几何特征而言,颜色特征稳定性好,有对大小、方向不敏感等特点。
因此,颜色特征的提取受到极大重视并得到深入研究。
本章首先介绍几种常用的颜色空间模型,然后介绍各种颜色特征提取和表示方法。
1.2.1颜色空间模型为了正确地使用颜色这一特征,需要建立颜色空间模型,通常的颜色空间模型可用三个基本量来描述,所以建立颜色空间模型就是建立一个3-D坐标系,其中每个空间点都代表某一种颜色。
通常来说,对于不同的应用,应该选取不同的颜色空间模型。
常用的颜色空间模型主要有:RGB、HIS、HSV、YUV、YIQ、Munsell、Lu*v*和La*b*等。
颜色空间模型的选取需要符合一定的标准,下面就这一标准和最常用的颜色空间模型作一些介绍。
文献[错误!未找到引用源。
]中介绍了选择颜色空间模型的标准主要有以下几个:(1)观察角度的鲁棒性(2) 对物体几何性质的鲁棒性 (3) 对光照方向改变的鲁棒性 (4) 对照强度改变的鲁棒性(5) 对照明的光谱能量分布(SPD)的鲁棒性 (6) 高分辨能力(7) 对物体遮掩和杂乱的鲁棒性 (8) 对图像噪声的鲁棒性RGB 颜色空间模型由R 、G 、B 分量构成,是最常用的颜色空间模型,现在各种格式的图像都是采用RGB 空间存储和传输,并得到各种物理设备的直接支持。
但是,研究发现,RGB 颜色空间模型也有一些缺点,主要表现在以下三个方面:首先是通道之间的相关性,BR 之间的相关性系数大约为0.74,RG 相关性系数约为0.98,GB 之间的相关性系数为0.94;其次是心理学上的非直观性;最后是感知上的非一致性。
为了更好地适应于各种应用场合,人们提出了很多的其他颜色空间模型。
HIS 颜色空间模型反映了人观察颜色的方式,与人的视觉感知特性符合较好,其中,I 表示亮度,H 表示色度,S 表示饱和度。
与HIS 颜色空间模型相比,HSV 颜色空间模型更符合人类对颜色的视觉感知特性,H 表示色调,色调是彩色相互区分的特性,S 表示饱和度,是指彩色的纯洁性,V 表示强度,是指彩色的明暗程度,这三个分量是相互独立的。
在彩色图像的分割中,RGB 模式难以直接进行分割,只有将它们转化成HSV 模式才行。
从RGB 颜色空间模型转换到HSV 颜色空间模型的方法有多种[错误!未找到引用源。
],本文介绍一种比较容易实现的转换方法。
(-)(-)a rc c o s (-)(-)2-a rc c o s R G R B B G H R G R B B Gπ+⎧≤⎪⎪=⎨+⎪>⎪⎩(2-1)m a x (,,)m in (,,)m a x (,,)R G B R G B S R G B -=(2-2)m a x (,,)255R G B V =(2-3)YUV 和YIQ 主要用于视频传输和编码,其中Y 为亮度分量,UV 或IQ 为色差分量。
Munsell 系统是从心理学的角度,根据颜色视觉的特点所指定的颜色分类和定标的系统,它由以H (色调)、V (明度)和C (色度)为基础系统排列的色卡组成。
Lu *v *和La *b *为均匀色度空间,其中色差可以由欧氏距离度量。
从图像处理的角度来说,对颜色的描述与人对颜色的感知越接近越好,这样便于将人的意图在处理结果中反映出来。
从视觉感知均匀的角度来说,人们希望所感知的两个颜色的距离应该与这两个颜色在颜色空间中的距离是一致的。
在均匀颜色空间中,人们观察到的两个颜色的距离与这两个颜色在空间中的欧氏距离成正比。
1.2.2 颜色特征的表示方法常用的颜色特征表示方法有:颜色直方图、颜色矩、颜色聚合向量、颜色集等。
(1) 直方图法直方图的颜色特征方法是把颜色量化成若干种,然后统计每种颜色的像素数在整幅图像中所占的比重。
颜色直方图特别适用于描述那些难以自动分割图像和不需要考虑物体空间位置的图像。
常用的颜色直方图的方法有简单颜色直方图和累积颜色直方图两种。
最早使用颜色直方图进行图像检索的是Swam 和Ballard [错误!未找到引用源。
],其核心思想是在一定的颜色空间中对颜色出现的频数进行统计,然后采用色彩直方图的交来度量两幅图像色彩的相似性,其最大的缺点是完全丢失了图像色彩的空间信息。
直方图是一个向量,维数为颜色级数,每维数值即对应该维所对应颜色的像素数占整幅图像像素数的百分比。
设图像I ,颜色被量化成N 种颜色(N 通常小于实际颜色数),直方图表示为:()[(0),(1),(1)]H I h h h N =-(2-1)其中()k n h k n =(2-2) 1N kk n n -==∑(2-3)kn 表示第k 种颜色的像素的数目,N 为颜色数。
直方图表示为简单直方图时没有考虑到相邻颜色的相似性,为了改进这个不足,以颜色为横坐标,颜色累加出现的频数为纵坐标,引入累积直方图的定义。
累积直方图的统计方法如式(2-4)所示。
()ki i n h k n==∑(2-4)无论是哪种直方图特征,都需要进行直方图量化,更多的量化区间可以具有更强的能力,但具有更高的运算代价,且不适于数据库索引。
一些改进的方法将直方图结合空间信息,将图像按特定方法分割成不同的子区域,在子区域中统计颜色直方图。
(2) 颜色矩基于图像中任何的颜色分布均可用它的矩来表示这一数学基础,Stricker 和Orengo 提出了颜色矩的颜色特征表示方法[错误!未找到引用源。
]。
此外,由于颜色分布信息主要集中在低阶矩中,因此仅采用颜色的一阶矩(mean)、二阶矩(variance)和三阶矩(skewness)就足以表达图像的颜色分布。
与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。
颜色的三个低阶矩在数学上表达为:11Ni ijj p Nμ==∑(2-5)()12211Ni iji j pu N σ=⎛⎫=-⎪⎝⎭∑ (2-6)()13311Ni iji j s pu N=⎛⎫=-⎪⎝⎭∑ (2-7)其中i j p 是图像中第j 个像素的第i 个颜色分量的值。
由于颜色空间模型都是有3个分量构成,因此图像的颜色矩一般只需要9个分量,与其它的颜色特征相比非常简洁的。
在实际应用中为避免低阶矩较弱的分辨能力,颜色矩常和其它特征结合使用,而且一般在使用其它特征前起到过滤缩小范围的作用。
(3) 颜色聚合向量针对颜色直方图和颜色矩无法表达图像中色彩的空间位置的缺点,Pass 和Zabih 等人提出了颜色聚合向量(color coherence vector)[错误!未找到引用源。
]。
该方法是颜色直方图的一种演变,其核心思想是:将属于直方图每一个柄的像素分成两部分,如果该柄内的某些像素所占据的连续区域的面积大于给定的阈值,则该区域内的像素作为聚合像素,否则作为非聚合像素。
假设i α与i β分别代表直方图的第i 个柄中聚合像素和非聚合像素的数量,图像的颜色聚合向量可以表达为1122(,),(,),(,)NN αβαβαβ<> 。
而1122,,NN αβαβαβ<+++>就是该图像的颜色直方图。
由于包含了颜色分布的空间信息,对需要比较物体的空间位置的图像,颜色聚合向量能比颜色直方图达到更好的检索效果。
(4) 颜色集颜色集是J.R. Smith 提出的图像颜色特征的一种表示方法,其表示形式为二值空间中的一个M 维指示向量,其值指示在图像中是否出现符合某种特定条件的颜色,1表示出现,0表示未出现[错误!未找到引用源。
]。
颜色集的统计方法为:首先选择一个合适的颜色空间,并在此空间得到一个具有M 种颜色输出的颜色量化函数,每种颜色在M 维的二值空间中占一位;然后利用颜色量化函数对图像进行量化处理,使得处理后的图像至多包含M 种颜色;最后为每种颜色确定一个阈值,如果图像中属于此颜色的像素达到这一阈值,则相应的二值指示向量的位置置为1,否则置为0。
事实上颜色集只是一种表示方式,它等价于阈值直方图。
另外,如果每种颜色的阈值都定义较高的话,颜色集中置为1的那些颜色实际上就是主色。
1.3 纹理特征的提取和表示纹理是图像的另一个主要特征,通常看作图像的某种局部特征,它不仅反映图像的灰度统计信息,而且反映图像的空间分布信息和结构信息。
对图像纹理,迄今为止仍无一个公认的、一致的严格定义。
但图像纹理对人们来说是很熟悉的。
纹理是人眼视觉的重要组成部分,反映了物体的深度和表面信息,表达了物体表面颜色和灰度的某种变化。
而且这些变化又与物体本身的属性有关,是图像的固有特征之一。
数字图像中的纹理是相邻像素的灰度或颜色的空间相关性,或是图像灰度和颜色随空间位置变化的视觉表现。
纹理特征描述方法大致可以分为四类:统计法、结构法、模型法、频谱法。
(1) 统计法统计方法分析纹理的主要思想是通过图像中灰度级分布的随机属性来描述纹理特征。
(2) 结构法结构法分析纹理的基本思想是假定纹理模式由纹理基元以一定的、有规律的形式重复排列组合而成,特征提取就变为确定这些基元并定量分析它们的排列规则。
(3) 模型法模型法是利用一些成熟的图像模型来描述纹理,如基于随机场统计学的马尔可夫随机场、自回归模型,以及在此基础上产生的多尺度自回归模型等。