当前位置：文档之家› 图像分类所需知识整理

图像分类所需知识整理

图像分类图像分类技术得益于两种技术的发展，一种是数据库技术，另一种是计算机显示技术。

从这两种技术角度来看，图像分类技术可以分为基于文本的图像分类系统和基于图像自身内容的分类系统。

基于内容的图像分类系统为了克服传统图像分类技术的局限性，人们开始寻求新的图像分类检索方法，于是出现了基于内容的图像分类技术，即使用图像本身的颜色、形状、纹理等视觉特征代替传统的手工填加关键字信息进行分类的技术。

基于内容的分类它直接对图像内容进行分析，抽取特征和语义，利用这些特征和语义进行分类并建立索引，进行检索。

人们已经将研究重点转移到从图像的视觉内容中自动提取图像特征用于分类及检索上，并且已经开发了各类基于内容的图像视频分类检索系统。

其中较著名的有QBIC、Photobook、Foureys等。

这些系统主要利用了图像的低层次信息，如颜色、形状、布局、纹理等。

近几年来，基于内容的图像分类检索技术有了长足的发展，主要是基于低层次视觉特征的图像分类检索，比较成功的例子有IBM 公司的QBIC系统等。

但是针对高层次语义特征的图像分类检索系统还没有成熟的产品。

在基于内容的多媒体信息分类检索技术研究中，基于理解的文本分类检索已经有比较好的研究成果，但基于视觉特征和语义特征的图像、音视频分类检索尚处于研究开始阶段。

目前，在图像分类方面，还没有比较成熟的算法能够对所有的图像类型都进行有效的分类。

因此研究图像分类的有效算法对于图像检索技术发展具有十分重要的意义。

从不同的角度，图像可以分为不同的类别。

本文将图像根据功能不同分为图标类图像和图片类图像。

图片类图像在分类技术上，采用提取图像的颜色数，主体颜色，色彩的饱和度等图像基本特征的方法，根据图像低层次的可见特征进行分类。

这些种类不同的图像在视觉特征上有较大的区别，结合因特网中网页的相关文本信息可以实现语义级的分类。

图像的合理分类对提高基于内容的图像检索结果的准确性具有十分重要的作用。

万维网上的图像的类别一般如下照片类图片(Photograph)特点照片类图片通常指具有纹理或纹理趋势的实物图片或通过某些专门软件(如photoshop、3D Max等)处理产生的图片。

照片类图片包括照片(从自然界采集或通过扫描得到的图片)、类照片(主要指通过某些专门的图片处理软件生成的图片或计算机游戏的屏幕图片)等。

特点为：图片中使用的颜色数多，颜色逼真、鲜艳，颜色层次丰富，并且颜色之间过渡比较缓慢，能够表现出颜色、阴影的细微层次变化。

都有比较明显的纹理或纹理趋势，边缘一般模糊不清晰，且在大小比率(长*高)上差别也较小。

常用来显示真实的场景。

如果从照片内容上分类，照片类图片可以分为自然景物类和人造景物类图片。

自然景物类图片一般颜色比较鲜明，但是纹理趋势不明显，而人造景物类图片中一般为城市高楼、宗教庙宇、室内物件之类的图片，图片中包含的线条比较多，有较明显的纹理趋势。

图画类图片(Graphic)特点图画类图片通常都是具有良好边界的设计图片，它一般是通过绘图软件或是手工绘制而成。

图画类图片主要包括：卡通画、国画、油画、图表、徽标、艺术字等。

与照片类图片相比，图画类图片中使用的颜色数较少，但是区域颜色的饱和度通常都比较高，多使用纯色或是饱和度较高的颜色，并且颜色间的过渡也较照片类图片快，颜色层次单薄。

图片中纹理趋势不明显，通常有清晰的线条和光滑的边缘。

另外图画类图片在大小比率上差别较大。

图画类图片还可以进一步分类，本文将图画图片分为图表类(Chart)图片和绘画类(Drawing)图片两类。

绘画类图片包括国画、油画、卡通画、地图等等，图表类包括表格、原理图、流程图、统计图等。

图表类图片中一般都包含大量的线条，并且图片使用的颜色通常也比较简单，而绘画类图片中则鲜有或只有很少的线条，颜色通常都比较复杂，有时甚至接近于照片类图片。

根据照片类和图画类图片的不同特点，我们可以从中提取出具有价值的参量，然后根据参量对图片进行分类。

图像分类方法研究大部分基于内容的图像分类系统使用颜色、形状、纹理特征来表征图像，并且分类的基础也是从图像中提取的相似特征。

(1)颜色特征：颜色是图像的一个重要视觉性质。

(2)对颜色特征的表达方法有许多种，如直方图法、积累直方图法、局部累计直方图法、颜色分布法、中心矩法等。

各种方法的共同点都是用较有效和紧凑的方式来表达彩色信息。

这些特征描述了图像的全局属性，并且很容易从图像中提取出来。

目前对颜色特征的研究大部分都集中在颜色直方图上。

颜色特征的一个主要的缺点在于它不能够恰当的描述物体的形状和位置。

(2)纹理特征：关于纹理，至今国际上尚无一个公认的标准定义。

通常我们谈到图像的纹理时，意指图像像素灰度级或颜色的某种变化，而这种变化和空间统计相关。

因此纹理特征可以用来对图像中的空间信息进行一定程度的定量描述。

对纹理特征的描述通常借助纹理的统计特性或结构特性进行。

(3)形状特征：形状常和目标联系在一起，有一定的语义含义，因而形状特征可以看作是比颜色或纹理更高层的一些特征。

但是，从本质上说对形状的表达要比对颜色或纹理的表达复杂的多。

为获得有关目标的形状参数，常要先对图像进行分割，所以形状特征的提取会受图像分割效果的影响。

目标形状的描述也是一个非常复杂的问题[31141。

图标类和图片类分类直接用尺寸大小进行分类，尺寸参量有多种取法，比如图像长宽尺寸、面积大小、对角线尺寸等等。

经实验分析，本文取图像对角线尺寸作为分类参量。

If size<flagclass=“图标类图片”；End其中，size为图片对角线尺寸，]lag为参考阈值，本文参考值flag=100。

图片类的分类参量首先也要确定分类参量。

常用于图片类图像分类的分类参量有：(1)颜色数参量：通常情况下，照片类图片使用的颜色数较多，颜色比较鲜艳。

简单的2色、16色的颜色分辨率多用于图画类图片，而一般不用于照片类图片，所以可以将颜色数作为一个参量对图片进行简单的分类。

(2)颜色直方图参量：根据图像特点可以知道，照片类图片的颜色分布比较均匀，颜色数多，颜色之间变化比较缓慢，颜色直方图一般都比较均衡。

而图画类图片的颜色分布跳跃性大，颜色数较少，通常很大一片区域都具有相同的颜色值，因此，颜色直方图分布不均衡，跳跃性大。

(3)相对颜色直方图参量：由于图片的大小不一，所以颜色直方图并不能直接用来作分类参量，需要将其归一化，得到的新的直方图就是相对颜色直方图参量。

(4)颜色种类数参量：即图片中不同颜色的总数。

通常图画类图片用色都比较简单，使用的颜色种类较少，而照片类图片颜色一般都比较丰富，使用的颜色种类较多，所以我们使用颜色种类参量，计算出现在图片中的不同颜色种类数。

(5)主色调参量：图片中出现频率较高的颜色前面已经阐述了图画类图片和照片类图片的特点，可以根据其特点从上述的的常用参量中选择有价值的参量：①颜色数参量②相对颜色直方图参量③颜色种类数参量可以根据这些参量对图片进行照片类和图画类图片的基本分类。

分类算法分析首先，可以依据颜色数对图片类图像进行简单分类。

根据前面论述的图片特点可知照片类图片一般颜色比较丰富、饱满，经常使用256色或24b颜色数。

对于图画类图片来说，其用色一般都较为简单，颜色数较少。

由于2色、16色颜色分辨率低，所以照片类图片一般不使用2色或16色颜色数构造。

因此，可以直接将2色、16色的图片归为图画类图片。

(图3—2)If color=2 or 16class=“图画类图片”；End注：color为颜色数。

利用颜色数参量对图片分类的方法只适用于简单图片。

对于构造复杂的图片，我们使用相对直方图参量对其进行分类。

首先来看一下什么是颜色特征统计直方图。

图像颜色特征统计直方图简称为直方图，它实际上是一个一维的离散函数。

即：H(k)=nk k=0，1，⋯，L一1(3—2)上式中k代表图像的特征取值，对于颜色直方图来说，k就表示具体的某种颜色。

工是特征可取值的个数，即颜色总数，例如：对256色图片来说，L=256。

仇是图像中具有特征值为k的象素的个数，即图片中具有某种具体的颜色值的象索个数。

示例图如下，其中有8个直方条，对应图像中8个灰度象素数目。

直方图示例下图分别为256、24b颜色分辨率的颜色直方图。

其中国3—4(a)、(b)、(c)、(d)为24b颜色分辨率的图画类和照片类图片及其颜色直方图，3-5(a)、(b)、(c)、(d)为256色颜色分辨率的图画类和照片类图片及其颜色直方图。

9_图像分类识别.pdf from 百度文库这里面连着9的一系列图像方面的课程。

图像基础知识RGB功能将代表红、绿、蓝三原色的三个整数组合成一个表示颜色的长整数。

语法RGB ( red, green, blue )参数red：integer类型，指定颜色中的红色分量强度，有效值在0到255之间green：integer类型，指定颜色中的绿色分量强度，有效值在0到255之间blue：integer类型，指定颜色中的蓝色分量强度，有效值在0到255之间返回值Long。

函数执行成功时返回由指定分量确定的颜色，用长整数表示。

发生错误时返回-1。

如果任何参数的值为NULL，RGB()函数返回NULL。

用法RGB()函数使用下述公式计算表示颜色的长整数：65536 * Blue+ 256 * Green+ Red其中，Blue代表蓝色分量，Green代表绿色分量，Red代表红色分量。

各分量中，数值越小，亮度越低，数值越大，亮度越高。

例如，RGB ( 0, 0, 0 )为黑色（亮度最低），RGB ( 255, 255,255 )为白色（亮度最高）。

HSV将色彩分解为色调，饱和度及亮度。

通过调整色调，饱和度及亮度得到颜色和变化。

下面来了解下HSV颜色空间（这图大家将就看下）红，蓝，绿三种颜色夹角120度，就是RGB模式下的3个颜色分量。

按我的理解，他们就相当于3个向量，这个六棱锥空间内的点代表了所有的颜色，R(红)，G（绿），B（蓝）三个向量相加便可以得到空间中任意一点。

当三个向量强度（亮度）相等时，加起来的方向就是V，即灰色。

当灰色最亮时，即三个向量强度最大时，便得到白色。

当三个向量强度最低时（亮度为0），便得到黑色。

HSV也是这样三个向量，分别代表色调，亮度，饱和度。

因为HSV是基于人的眼睛对色彩的识别，所以我们可以通过慢慢调整三个分量的大小，来得到我们想要的颜色。

而在GRB模式下，我们是不可能这样做的。

要注意的是H是一个角度，这三个向量相加同样可以得到这个六棱锥空间中的任意一点。

所以RGB与HSB可以相互转换。

在计算机中往往使用RGB颜色系统，因为它操作简单并且和典型的显示硬件直接对应。

一般使用32位来表示一个颜色。

开始8位代表透明度，接下来每个颜色分量占8位，依次是R,G,,B。

e商务文档

图像分类所需知识整理

相关文档推荐：