当前位置：文档之家› 多媒体论文

多媒体论文

课题论文基于内容的图像检索技术综述【摘要】随着多媒体技术的飞速发展，传统的基于文本的图像检索技术已经不能满足需求，因此基于内容的图像检索（Content-Based Image Retrieval，简称CBIR）应运而生，并且迅速成为研究重点。

本文叙述了关于CBIR的体系结构、技术流程及关键技术【关键词】基于内容的图像检索技术1.引言在当今数字化与网络化时代，多媒体已成为互联网信息高速公路上所传送数据的主要部分。

例如：图像、音频和视频等多媒体内容目前在www中占据15%[243],且该数据还在飞速增长。

同时，以网络、通信和多媒体数据处理为中心的多媒体应用业发展迅速：如视频点播、数字化图书馆、多媒体检索和虚拟现实等。

多媒体检索方式和方法很多，在这里我们主要讨论一下基于内容的图像检索方式。

首先，解释一下什么是基于内容的多媒体检索，所谓基于内容的多媒体分析检索是指多媒体数据（如视频、音频流等）所蕴含的物理的和寓意的内容进行计算机分析理解，以方便用户查询，其本质是对无序的多媒体数据流结构化，提取语义信息，保证多媒体内容能被快速检索。

不同于文本信息，多媒体语义内容是通过多种媒质（如视频图像、音频和文字等）共同表达与补充。

因此，对于多媒体信息分析就要对蕴含在多媒体数据流内的所有媒质特征进行分析，这些媒质包括：视频流中的图像帧，音频信号流，从视频图像中提取的字幕，由音频信号转录得到的语音和三维虚拟物体等信息。

在对这些媒质提取特征之后，就可以只用这些特征来表征原有媒质，进而将连续的多媒体数据流分割称有语义信息的单位（如镜头和场景、语音与音乐等），最后将这些语义单位识别分类成先前定义的模板类型，为它们建立索引，方便检索与浏览。

与文本信息检索相比，多媒体分析检索要复杂得多，一般分为四个主要步骤;多媒体特征提取、多媒体数据流分割、多媒体数据分类和多媒体数据索引结构的构造与检索。

如图所示：早期图像检索使用的是文本标注方法，90年代初期，随着大规模数字图像库的出现，有些问题变得越来越尖锐，为克服这些问题，基于内容的图像检索技术（content-based image retrieval,简称CBIR ）应运而生。

区别于原有系统中多图像进行人工标注的方法，基于内容的检索技术自动提取每幅图像的视觉内容作为其索引，如色彩、纹理和形状等。

两者比较，我们应该能认识到，基于内容的图像检索系统具有与传统基于文本检索系统完全不同的构架。

首先，由于图像依赖其视觉特征而非文本描述进行索引，查询将根据图像视觉特征的相似度进行。

用户通过选择具有代表性的一幅或多幅例子图像来构造查询，然后有系统查找与例子图像在视觉内容上比较相似的图像，按相似度大小排列返回给用户。

这就是所谓的通过例子图像的检索（query by image example ）。

另外，基于内容的检索系统一般通过可视化界面和用户进行频繁的交互，以便于用户能够方便地构造查询、评估检索结果和改进检索的结果。

2.CBIR 的体系结构CBIR 系统一般包括四个模块：一是图像处理模块，包括输入图像和图像特征的提取，图像输入过程是将图像输入到系统当中，类似于文本检索系统中文本录入过程，特征提取对用户或系统标明的图像对象进行特征提取处理。

二是检索模块主要实现检索匹配过程，根据相关计算方法，实现提问与记录的匹配和筛选，最终得到符号要求的结果反馈给用户。

三是对象库与特征库。

CBIR 中的对象库存储了输入的图像资源，特征库包含了用户输入图像特征以及在处理过程中自动提取的特征。

四是知识库的目的是为了将检索限定在任何领域范围内，避免不同的检索要求以及不同的领域背景可能会导致对多媒体内容语义产生的不同要求。

用户3.CBIR的技术流程CBIR一般由以下几个步骤组成：一是初始检索提问。

用户查找一个对象时，通过示例或特定的查询语言形成一个检索提问。

二是相似性匹配。

将查询特征和特征库汇总的特征按照一定的匹配算法进行相似匹配。

三是结果输出。

将满足一定相似性条件的一组候选结果按相似度大小排列后返回给用户。

四是特征调整。

对系统返回的结果可通过浏览来挑选，直至找到满意的结果，或从候选结果中选择一个示例，经过特征调整，形成一个新的查询。

五是重新检索。

逐步缩小查询范围，知道用户对查询结果满意或放弃为止。

总之，CBIR是一个逐步由粗到精细的过程。

4.CBIR的关键技术以图像特征作为索引，对静态图像进行检索是目前使用的最多方法。

图像特征包括：图像的画面内容特征（如图像颜色分布、纹理结构、形状等）；图像的主体对象特征（如图像所描述的人、车、建筑等）；图像的著录特征（如作者、时间、地点等）；以及图像的移动和组合特征（如影像中的场景）。

传统图像检索局限在图像的著录特征上，而基于内容的图像检索技术则主要依据图像的画面内容特征和主题对象特征来进行检索。

目前，比较成熟的特征索引是颜色、纹理和一些低层的、简单的形状特征和物体间方位关系。

这些特征具有计算简单、性能稳定的特点，但这些特征有局限性，因此，近年来的研究则逐渐转向基于区域、目标的图像表示、语义描述等。

检索则引进用户反馈等方法。

4.1基于颜色特征检索从人类视觉角度来看，颜色特征是人类感知和区分不同物体的一种基本视觉特征。

世界也因为有了颜色而显得多彩多姿。

颜色是一种重要的视觉信息属性，相对于其他特征，颜色特征对图像本身的尺寸、方向、视角的依赖性较小，从而具有较强的鲁棒性，而且颜色特征计算简单，因此成为现有的检索系统中应用最广泛的特征。

最早采用色彩进行图像检索的技术是由Swain 和Ballard 提出的基于色彩直方图相交方法，核心思想是在一定的色彩空间对图像各种色彩出现的频数进行统计。

目前的图像检多是基于颜色直方图，颜色直方图法具有运算速度快、存储空间要求低的特点，并且具有图像的尺度及旋转变化不敏感等特点，因此得到了广泛关注。

但是，基于不同颜色空间的检索系统的查询效果不同，没有统一的标准，增加了对各种检索系统评价的难度。

此外，它只包含了该图像中某一色彩出现的频数，而丢失了像素所在的位置信息，检率较高。

要进一步提高检索精度及其实用性，在实际应用中应和其它检索方法相结合，效果会更好。

颜色直方图作为图像索引的主要思想是根据颜色直方图统计颜色空间中每种颜色出现的概率，然后对颜色之间的距离采用直方图相交来度量每个颜色直方图之间的相似性。

直方图描述了图像颜色(或灰度)统计特征，反映了图像颜色的统计分布和基本色调。

具体地，对于一幅图像I，其颜色(或灰度)由L级( C1, C2,···, CL ) 组成，Ci为第i级颜色值. 在整幅图中, 具有Ci 值的象素个数为hi, 则一组象素的统计值h1, h2, ···，hL 就称为该图像的颜色直方图。

用H ( h1, h2,···, hL )表示。

选取合适的颜色空间后, 将采用有效的算法提取颜色特征, 典型的表达方法有颜色直方图法( Co lorH istogram )，颜色矩( Co lorMoments)，颜色聚合向量CCV, 颜色相关图等。

4.2基于纹理特征的检索纹理是所有事物表面固有的一种特性，也是图像检索中一个重要而又难以描述的特性。

图像可以看成是不同纹理区域的组合，纹理通常定义为图像的某种局部性质，或是对局部区域中像素之间关系的一种度量。

纹理特征可用来对图像中的空间信息进行一定程度的定量描述。

纹理统计特征分析方法主要有共生矩阵分析法、马尔可夫分析法、多尺度自回归MRSAR 模型以及遗传算法等。

Tamura 等从人类感知心理学的角度提出纹理的6 种视觉特性：粗纹度、对比度、方向性、线性度、规则度和粗糙度。

该纹理特征表示具有实际的视觉意义，可以为图像检索提供更好的用户交互性。

同时，由于纹理很少能提供语义信息，描述比较困难。

因此通常作为检索过程的辅助手段或者和其他特征结合使用。

一般对纹理的检索都采用示例查询(QueryBy Example)方式。

用户给出示例的全部或部分区域特征，从而找到类似图像。

另外，为了缩小纹理的查找范围，还可以考察纹理的颜色特征，以便把检索空间缩小到某个颜色范围。

4.3基于形态特征的检索形态特征是描述图像内容的另一个重要特征，也是计算机视觉和模式识别研究的一个基本问题。

采用形态特征进行检索，用户可以通过勾勒图像的形状或轮廓，从图像库中检索出形状相似的图像。

基于形状特征的检索有两种：一是分割图像经过边缘提取后得到目标的轮廓线，针对这种轮廓线进行图像特征检索；另一种是基于图像的区域特征惊醒检索。

针对形状轮廓特征的描述方法主要有：边界直方图、链编码、曲率尺度空间、傅立叶描述等，其中最典型的方法就是傅立叶描述法。

它的基本思想是用物体边界的傅立叶交换作为形状描述，利用区域边界的封闭性和周期性将工作问题转化为一维问题。

从而提高检索的效率。

针对区域特征描述方法主要有形状的无关矩、区域的面积、形状的纵横比率。

对于基于形状的检索来说，形状的提取。

描述及匹配都是重点解决的问题。

与基于颜色和纹理的检索方法相比较，基于形状的检索方法比较困难。

4.4基于语义的检索语义特征一般用文字描述, 可以用传统的数据库方法和基于知识的模型来管理和检索。

目前一般用半自动或手动的方法提取语义特征, 在大型数据库或动态数据库中这种提取方法并不太现实, 因此只适合特定的应用。

在这一层次上面的研究还是很稀少的, 由于其主观性强, 既没有比较成功的方法, 也没有可靠的相似标准以供评价。

4.5基于组合的多特征检索在用单一特征进行检索时，可能会出现非常相似的两幅图，但在语义上相差很大。

而采用组合特征检索法时可以在颜色、纹理、形状等几种查询特征中选择两种或两种以上的特征进行组合检索。

基于多特征组合检索便于用户更灵活、更有效的表达检索要求，提高检索的准确率。

该检索方法可以分为两种情况进行：一是异步组合检索，另一种是同步组合检索。

（1）异步组合检索在异步组合检索中时，针对示例图像，首先采用一种主要特征（比如颜色）进行检索，按相似程度排序检索结果，然后从中挑选出新的示例图像，以另一种特征（如纹理或形状）再进行检索，知道满足检索要求。

异步组合特征检索从本质上来看是单一特征检索。

以单一特征检索不同的是，该方法在检索过程中，分别利用图像中不同特征的特点逐次进行相似性匹配，可逐步缩小检索空间，不断提高检索精度。

（2）同步组合检索在同步组合检索时，针对示例图像，首先人工设置组合特征的归一化初始权重比，根据此初值进行第一次检索，按相似程度排序检索结果，然后从中挑选出新的示例图像。

重新人工设置组合特征的归一化权重比，再次进行检索，知道满足检索要求。

5.结束语本文是对基于内容的图像检索中的体系结构、技术流程以及关键技术进行了综述。

e商务文档

多媒体论文

相关文档推荐：