关于“图像检索”的查析报告图像检索定义: 在图像集合中查找具有指定特征或包含指定内容的图像的技术。
何为图像检索在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。
基于文本的图像检索基于文本的图像检索沿用了传统文本检索技术,回避对图像可视化元素的分析,而是从图像名称、图像尺寸、压缩类型、作者、年代等方面标引图像,一般以关键词形式的提问查询图像,或者是根据等级目录的形式浏览查找特定类目下的图像。
图像所在页面的主题、图像的文件名称、与图像密切环绕的文字内容、图像的链接地址等都被用作图像分析的依据,根据这些文本分析结果推断其中图像的特征。
在基于文本的图像检索系统中,需要先对所有的图像进行关键字标注,然后才能使用全文检索技术对图像进行搜索。
这种方法存在两个方面的问题:一是这种方法需要较多的人工参与,而且随着图像数目的增加,这种方法很难实现;二是由于图像所包含的信息量庞大,不同的人对于同一张图像的理解也不相同,这就导致对图像的标注没有一个统一的标准,因而检索的结果不能很好地符合用户的需求。
因此,利用图像本身的内容进行检索势在必行。
基于内容的图像检索基于内容的图像检索,即CBIR(Content-based image retrieval),是计算机视觉领域中关注大规模数字图像内容检索的研究分支。
基于内容的图像检索的研究还涉及了图像处理(Image Processing)、图像检索(Image Retrieval)等多个研究领域。
工作流程基于CBIR 技术的图像检索系统,在建立图像数据库时,系统对输入的图像进行分析并分类统一建模,然后根据各种图像模型提取图像特征存入特征库,同时对特征库建立索引以提高查找效率。
而用户在通过用户接口设置查询条件时,可以采用一种或几种的特征组合来表示,然后系统采用相似性匹配算法计算关键图像特征与特征库中图像特征的相似度,然后按照相似度从大到小的顺序将匹配图像反馈给用户。
用户可根据自己的满意程度,选择是否修改查询条件,继续查询,以达到令人满意的查询结果。
技术概述CBIR的核心是使用图像的可视特征对图像进行检索。
本质上讲,它是一种近似匹配技术,融合了计算机视觉、图像处理、图像理解和数据库等多个领域的技术成果,其中的特征提取和索引的建立可由计算机自动完成,避免了人工描述的主观性。
用户检索的过程一般是提供一个样例图像(Queryby Example) 或描绘一幅草图(Queryby Sketch) ,系统抽取该查询图像的特征,然后与数据库中的特征进行比较,并将与查询特征相似的图像返回给用户。
CBIR 的实现依赖于两个关键技术的解决:图像特征提取和匹配。
图像特征提取分为两类:①低层视觉,其内容主要包括颜色、形状、纹理等;②语义内容,它包含高层的概念级反应,需要对物体进行识别和解释,往往要借助人类的知识推理。
由于目前计算机视觉和图像理解的发展水平所限,使得CBIR还无法真正支持基于语义的图像检索,所以目前研究得较多也比较成熟的检索算法大部分是基于图像的低层特征的,即利用图像的颜色、纹理、形状等特征来检索。
[3]提取后的图像特征数据需要经过索引、降维等处理。
首先,图像由特征向量表示,而这些特征向量一般都是高维向量,在庞大的图像数据库中,对高维向量进行顺序比较的过程是相当费时的。
在实际应用过程中,为了让基于CBIR的图像检索系统能够真正适合大型的图像数据库,提高检索效率,尽可能减少查询时的特征矢量比较时间,往往将降维技术和多维索引技术结合起来。
特征提取基本体整体趋包含颜色、纹理、平面空间对应关系、外形,或者其他统计特征。
图像特征的提取与表达是基于内容的图像检索技术的基础。
从广义上讲,图像的特征包括基于文本的特征(如关键字、注释等)和视觉特征(如色彩、纹理、形状、对象表面等)两类。
视觉特征又可分为通用的视觉特征和领域相关的视觉特征。
前者用于描述所有图像共有的特征,与图像的具体类型或内容无关,主要包括色彩、纹理和形状;后者则建立在对所描述图像内容的某些先验知识(或假设)的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。
1、基于颜色特征的检索颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。
一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献。
由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征。
另外,仅使用颜色特征查询时,如果数据库很大,常会将许多不需要的图像也检索出来。
颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色往往和图像中所包含的物体或场景十分相关。
此外,与其它的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的稳定性。
为了正确地使用颜色,需要建立颜色模型。
颜色布局算法:1.将整副图像平均分成64块,计算每一块中所有像素各颜色分量的平均值,以此作为该块的代表颜色(主颜色);2.将各块的平均值数据进行DCT变换;3.通过之字形扫描和量化,取出3组颜色DCT变换后的低频分量,构成该图像的颜色布局描述符。
颜色相似度匹配算法:1. 直方图相交法令和分别为查询图像Q和数据库图像D的(某一)特征的统计直方图,则两图像之间的相似值为如果用HSV直方图表示每幅图像,则两幅图像Q和D的直方图交表示为:2. 欧式距离3. 距离法为减少计算量,可借助直方图的均值来粗略地表达颜色信息。
如果图像用R,G,B三个分量表示,则图像的特征向量由这三个分量的均值组成。
f = {u R,u G,u B}T此时图像Q和D的相似值为MPEG-7中建议的颜色布局描述符在匹配时使用了类似的距离公式W为权重,Yi,Cri,Cbi为各个分量的第i个DCT系数4. 中心矩法对直方图来说,均值是其零阶矩,更高阶的矩也可用于匹配对一幅灰度级为L的图像,其直方图为H(i),则该图像的前三阶中心矩分别为对彩色图像,用M i,QR,M i,QG,M i,QB和M i,DR,M i,DG,M i,DB表示图像Q和D的3个分量R,G,B的直方图的i(i≤3)阶中心矩,则它们之间的匹配值为如果彩色图像用3个分量H,S,V来表示,也可用类似方法计算5. 参考颜色表法*距离法太粗糙,直方图相交法计算量太大*折衷的方法:将图像颜色用一组参考色表示,这组参考色应能覆盖视觉上可感受到的各种颜色*参考色的数量要比原图的少,可得简化的直方图,所以匹配的特征向量是f=[r1,r2,...,r n]r i是第i种颜色出现的频率,n是参考颜色表的尺寸加权后的查询图像Q和数据库图像D之间的匹配值为2基于纹理的特征提取纹理特征提取图像可以看成是不同纹理区域的组合,纹理通常定义为图像的某种局部性质,或是对局部区域中像素之间关系的一种度量。
纹理特征可用来对图像中的空间信息进行一定程度的定量描述。
在国际标准MPEG-7中建议了一种纹理特征描述符——边缘直方图。
边缘直方图是基于图像边缘的统计特征,能较好地反映目标的边缘和纹理特征,而且运算速度较高。
下面介绍提取的具体步骤:(1)将图像转换成灰度图。
每个象素的灰度值可以根据RGB颜色分量按下列公式计算得到:Gray(i,j)=0.11*R(i,j)+0.59*G(i,j)+0.3*B(i,j)。
(2)将整幅图像分成4×4块。
(3)分别对16块1/16子图像进行sobel边缘算子运算,得到边缘图像。
(4)统计子图像中的边缘直方图,该直方图包括4个直方条。
(横轴为0,1,2,3四个边缘方向,纵轴为该方向上的象素数占子图像总的象素数的比率)(5)将16个子图像的直方条综合起来,得到包括64个直方条的整幅图像的边缘直方图。
用sobel算子提取图像边缘的具体算法:sobel算法中用到的4个核模板:Sobel算法模板sobel 算法的边缘方向编号(1)将图像中的象素点的灰度值分别与以上四个方向的核模板相乘。
(2)比较四个乘积数值,取最大的那个数值,作为该象素点的新的灰度值。
(3)取适当的阈值T,若新的灰度值≥T,则认为该象素点为边缘点。
通过以上算法提取出图像的边缘。
相似度计算仍然采用欧式距离公式作为相似度的计算公式,如下:∑=-=632) (),(iD QD QD其中;Qi ,Di为图像Q,D在边缘直方图中对应的第i个直方条的值。
颜色特征总结1.是一种全局特征,描述了图像或图像区域所对应景物的表面性质2.由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征颜色直方图表示的优缺点优点:不受图像旋转和平移变化的影响,归一化可不受图像尺度变化的影响缺点:没有颜色空间分布的信息纹理特征总结是一种全局特征,描述了图像或图像区域所对应景物的表面性质仅仅利用纹理特征是无法获得高层次图像内容不像颜色特征基于像素点,纹理需要在包含多个像素点的区域中进行统计计算具有旋转不变性,并且对于噪声有较强的抵抗能力缺点1.当图像的分辨率发生变化,所计算出来的纹理可能会有较大偏差;2.可能受到光照、反射情况的影响,用于检索时,这些虚假的纹理会造成误导;3.可用于检索具有粗细、疏密等方面较大差别的纹理图像;如果纹理之间的粗细、疏密相差不大,则难于应用。
颜色vs纹理颜色特征充分利用了图像的色彩信息,而纹理特征只利用了图像的灰度信息(彩色纹理特征不多见);颜色特征侧重于图像整体信息的描述,而纹理特征更偏重于局部。
相关反馈1为什么需要反馈1目前所提取的描述特征还不能完整或全面地描述图像的内容:(1)很难说不同特征的不同表达,哪种最好(2)对高层概念和视觉感知都很难建立有效模型2人类不具有关于底层特征的全面知识所以,仅通过一次检索就找到需要的图像是不现实的3将用户的特殊要求反馈给系统,以使检索更有效且更接近用户的要求4基于底层视觉特征的检索系统带来的主要问题(1)人类高层语义特征和计算机底层特征表示的矛盾,例如:1、十五的月亮,容易想到颜色、亮度和形状2、漂亮的衣服,很难想到颜色、长短或尺寸(2)人类视觉感知的主观性——因人而异1、有人关注图像的区域色彩而有人关注区域布局2、可能有人注重色调而有人注重饱和度2相关反馈的特点1 最先用于文字检索,已有30多年的历史[Rocchio1971]2 利用用户先前的检索结果信息进行反馈来自动调节当前查询,也可借助人机交互细化用底层特征表达的高层查询3使用相关反馈来建立高层概念和底层特征之间的联系3相关反馈的过程1 用户进行一次初步查询,系统返回检索结果2 用户判断结果,标记满意的结果为正例,标记不满意的结果为反例3 系统根据用户标记结果进行自我调整(如调整搜索策略、算法参数、不同特征的权重等),进行新一轮检索4 根据用户要求,反复进行总结在完成这个关于“图像检索”的析查报告过程中,使我对图像检索有了一个整体的认识,了解到其发展方向,对其算法思想也有一定的了解。