当前位置:文档之家› 基于内容的视觉信息检索综述

基于内容的视觉信息检索综述

1 鲁东大学信息与电气工程学院2014-2015学年第1学期 《学科前沿讲座》课程论文 课程号:2260131-02 任课教师 周树森 成绩

论文题目:基于内容的视觉信息检索综述

论文要求:(对论文题目、内容、行文、字数等作出判分规定。) 写一篇基于内容的视觉信息检索的综述文章,或者介绍一个开源视觉信息检索源码包(提交源码包、演示样例和介绍文档)。 若有雷同抄袭,零分。 采用毕业论文的模板,不要封皮和前面的各种表格,从正文摘要部分开始写即可。 然后将所有内容粘贴到本课程论文正文部分。 要求写10页以上word文档,提交电子版和纸质版。 教师评语:

教师签字: 年 月 日 正文

基于内容的视觉信息检索综述 宋浩 (信息与电气工程学院,计算机科学与技术,2012级1201班,20122212689) 摘要:互联网和多媒体技术的快速发展以及图像采集量的迅猛增加,已促使基于内容的视觉信息检索成为最受关注的研究领域之一。网络资源的极大丰富以及图像检索技术不断发展成熟,使得图像检索技术的应用领域不断扩大,这为基于内容的图像检索技术的继续研究提供条件。 基于内容的视觉信息检索(CBIR)是指直接采用图像内容进行图像信息查询的检索,即在图像数据库中检索与用户所提交样本图像在内容上一致或相似的图像集合的过程,通过对图像底层特征的比较来实现检索。主要研究技术包括特征抽取、相似度量、图像匹配、用户反馈。目前CBIR技术和方法的研究虽然已有不少算法,但总体效果还是不尽如人意。仅基于色彩特征的检索方法是CBIR的主要方法之一,它所抽取的特征向量是颜色直方图,虽然能够较好地反映图像中各种颜色的频率分布,而且对图像中对象的旋转以及观察位置的变化不敏感,但无法保留各像素。CBIR技术可追溯到1992年。这项技术是为了解决报刊等媒体集团大量图片检索的难题而衍生出来的。 本文主要介绍基于内容的视觉信息检索技术的研究发展和问题、综合介绍及检索引擎的工作原理,应用前景和对其他领域的影响。

关键词:图像检索系统;检索引擎;基于内容的图像信息检索;对其他领域的影响。

1.研究发展和系统简介:

二十一世纪是一个多元化的信息社会,对图像的需求将是前所未有的巨大的,图像数据库也将得到长足的发展。因此,图像检索系统具有广阔的应用前景。这就使得图片采集、存储以及分享变得越来越容易,例如Flickr 网络相册和Panoramio 地图相册都已经收集了数百万的图片。大量图片的涌现,就带来如何组织和管理图像库的问题,如何有效地从庞大的图像数据库中浏览、检索和分类所需的图像成为急需解决的问题。

1.1研究发展 2

20 世纪70 年代出现的早期图像检索技术是基于文本的检索方法(text-based image retrieval),这种方法是对每幅图像进行人工标注,从而将图像检索转换为文本检索的过程。它是将用户输入的关键词与数据库或其他目标文本进行比较,并根据信息的内容给出文字描述,通过检索其描述文字进而找到所需的多媒体信息,但这种检索难以充分揭示和描述信息中有代表性的特征,并带有很大的主观性。尽管这种方法直接有效,并且基于文本的检索技术也在不断地进步,但是仍然有许多问题难以解决。随着多媒体技术快速发展,如数码相机,数字摄像机,拍照手机等设备的普及,使得图像数据库快速膨胀,如果再对每幅图像都进行人工标注将是件非常昂贵、耗时的工作,于是出现了很多没有明确标注的图片。此外人工标注有很大主观歧义性,不同的搜索引擎对同一幅图像的标注不同,导致同一幅图像又会有多种标注。 为了解决上述问题,90 年代初研究者又提出新的基于内容的图像检(Content Based Image Retrieval ,CBIR)方法,这种新方法是利用图像的视觉特征进行检索的[Basu et al,2004]。常用的图像视觉特征有颜色、纹理、形状以及空间分布等信息,通过这些底层特征集的某种合适距离判断图像之间的相似性,然后根据这种相似性给出检索结果。近年来,基于内容的图像检索系统得到了迅猛发展,大部分系统都是基于范例的查询。图像检索系统最主要的缺陷就是存在多种鸿沟,并引出了一些问题]: (1)感觉鸿沟(sensory gap):真实目标和来自场景记录的描述信息之间的不一致; (2)语义鸿沟(semantic gap):图像的底层视觉特征和其高层语义之间存在着很大差异。 前者是由于记录信息的局限性影响到图像内容的识别,后者引发的问题是如何能从视觉内容中获取用户对图片的理解。这些问题直到现在都没有很好的解决办法,严重阻碍了基于内容的图像检索系统的发展以及实际应用和推广。近年来,为了缩小这些不一致带来的问题,研究者提出多种反馈方法和利用无监督或半监督方式提取文本关键词内容的方法。这种将视觉特征和文本描述结合起来的方法在解决每个独立系统的语义鸿沟时是非常有效的。但是这种方法仍然具有基于文本检索的缺点,因此这种结合的方法只能部分地解决语义鸿沟问题。 由于流媒体技术的发展、宽频传输频颈的突破和媒体信息量的增大,基于内容的多媒体检索方法正在逐步探究和兴起。它将利用图像、音频、视频等元素进行检索,实现真正意义上的多媒体信息检索,以满足人们对知识的多层面的需求。从 1994 年至今,基于内容的图像检索技术得到了快速发展,但是要作为现实世界真正实用的检索系统,还需要考虑很多问题。如检索系统用到的关键技术、对检索结果的评价标准、现实世界对实用图像检索系统的要求以及图像检索引发的新研究领域等。

1.2基于内容的视觉信息检索系统简介 基于内容的图像信息系统主要有索引、查询检索三大模块组成。 1.2.1索引模块 在索引模块中,系统通过基于内容的图像索引技术自动地提取图像中的内容特征并存储于多媒体数据库中。由于不同的用户对同一张图片内容的认识不尽相同,而数字档案馆的用户又遍布全球各地。因此索引模块通常对同一份图像资料提取多种特征。特征提取后则要建立基于图像特征的索引。另外,对提取的多种图像还要进行特征组合,使系统能够调用合成的特征和特征表示来支持查询。

1.2.2查询模块 查询模块是实现人机交互的重要接口。基于内容的图像检索系统一般提供两种查询接口:特征查询和示例查询。特征查询是由用户直接给出要查询的图像的具体特征,通常用于图像学研究等专业领域的检索系统中。示例查询是由用户提供要查询的例子图像,查询模块根据例子图像自动提取其特征,然后在数据库中查找出所有与例子特征相似的图像。另外,当用户的检索目的比较含糊或不太熟悉数据库中的信息结构和信息类型时,浏览还可以初始化查询。即用户可以通过先浏览数据库来选择一个图像作为示例查询中的例子,然后提交给系统进行查询。

1.2.3检索模块 当用户提交查询条件后,检索模块便在数据库中查找所有与目标匹配的图像。所谓匹配,是根据图像之间内容特征的相似匹配,通常采用计算特征之间的距离来确定。特征距离越小,查询对象与目标对象之间的相似度越大;反之,则认为查询对象与目标对象无关。由于距离度量是一种相似性比较方法,所以检索结果往往包含一些与检索要求不相关的图像,检索模块利用相关反馈技术优化查询:基本思想是,在检索过程中,系统根据用户的查询要求返回检索结果,用户可以对检索结果进行评价和标记,并将这些信息反馈给系统,系统则根据这些反馈信息进行学习,并返回新的查询结果,从而使得检索结果更加满足用户的要求。相关反馈是提高系统查询效果强有力的方法。 3

2. 综合介绍及检索引擎的工作原理: 2.1综合介绍: 数码相机的发明方便了人们采集和分享图片,而低价的存储设备和方便的网络接.入更加速了大家从过去的摄像消费者转变为如今的图片制造者。而今搜索的图像数据不仅包含各种视觉和语义内容,还跨越了地理上不同的地方,而且数据库规模仍在迅速扩大。因此考虑现实世界的图像检索系统设计是必要的。虽然近年来基于内容的图像检索技术得到了快速发展,人们也给予了实用检索系统很大的关注,但是现实世界检索系统的应用仍受到一定限制。

设计一个功能完善的现实世界的图像搜索引擎,它不仅可以满足各类用户需求,还能从用户和系统角度理解描述它们之间的交互以及图像检索过程。为了描述交互和搜索中所有的可能性,从用户角度来看,图像搜索主要考虑三方面:

(1)用户清楚他想要什么, (2)用户希望在哪里搜索, (3)以何种方式查询。 从图像检索系统角度来说,需要考虑的因素就转变为: (1)用户希望结果如何显示, (2)用户想在哪里搜索, (3)用户输入或交互的本意是什么。 如果将用户和系统作为空间,现实世界的图像检索实例可以被看作孤立点或者点云,如果搜索引擎被看作是一个曲面,则搜索过程就是一条轨迹。

2.1.1用户检索目的 实际搜索过程时,用户检索目的不尽相同,有时压根不知道自己想要的结果。

我们认为用户目的清晰度在检索和交互过程中起到关键作用,这也是系统设计中 要考虑的因素。我们简单的将用户检索目的划分为以下几类: (1)浏览:用户漫无目的地浏览图片,这个过程可能是一系列毫无规律的不相关搜索,并且会有很多不同的主题; (2)翻阅:用户对最终目标不够明确,刚开始检索可能有点探索的意思,随后搜索过程中,目的会渐渐明确,知道自己想要什么; (3)搜索:用户非常明确自己想要搜索什么,搜索过程是简短的相关搜索。 总之,对用户来说最重要的是他们与系统之间的交互以及系统做出的回应。为了获得大众的认可,建立以人为中心的检索系统是很重要的。

2.1.2数据范围 理解图像数据的特征和范围在图像检索系统设计中起到至关重要的作用,此外用户多样性和期望用户访问量也将影响系统设计。基于上述原因,将搜索数据划分为以下几类: (1)个人收集:它们一般比较小,存储在本地存储介质上,主要的访问者就是拥有者。对这类数据,检索系统的设计主要考虑个性化、浏览的灵活性以及显示方式; (2)特定领域收集:这些数据可能较大,存储在分布式存储器上,一般是特定的用户才能访问的,例如生物医学和卫星影像采集数据。这些图像的检索结果可能需要强加具体的标准; (3)企业收集:这些图像可能存储在不同的机器上,访问者通常是一个机构内的局域网用户; (4)档案:它们通常是关于某特定主题的大量具有历史价值的有结构或半结构数据。它们能被互联网上的大多数用户访问,但在其用途上有些控制,通常存储在多个磁盘或者大型磁盘里; (5)互联网:大量存储在大容量磁盘的半结构化,非均匀的图像。理论上能被每个因特网用户访问,并且随时更新本地数据以反映互联网上的动态变化。它的关键问题是支持大量访问流量。

2.1.3查询模式 图像检索中衡量用户和系统交互能力的一个重要参数是系统查询的复杂度。从用户角度可以用不同的方式查询,例如关键字、自定义文本、图像、图形以及综合以上

相关主题