当前位置:文档之家› 多媒体搜索引擎技术分析

多媒体搜索引擎技术分析

多媒体搜索引擎技术分析摘要:随着Internet信息多媒体化的增加 ,多媒体化搜索引擎已成为检索技术未来的发展的重要目标与趋势 .本文简述了多媒体搜索引擎的种类、工作原理及存在的问题,比较了几种常见的多媒体搜索引擎的性能,并展望了其发展前景。

关键词:多媒体搜索搜索引擎目前,因特网上图形、图像、视频、音频、动画等多媒体信息正日渐丰富,与此同时,用户对其检索的要求也在不断增长,各种基于网络的多媒体搜索引擎便应运而生。

它们的工作原理和方式不尽相同,虽还不是非常完善,但能使用户比以前更方便地检索多媒体信息。

1 多媒体搜索引擎的类型1. 1 基于文本描述的多媒体搜索引擎当前信息检索技术还是以文本信息检索为主,基于多媒体特种的检索技术没有取得根本性的突破,因而目前的多媒体搜索引擎主要是以基于文本描述的多媒体搜索引擎,这种搜索引擎主要是对含有多媒体信息的网站和网页进行分析,对多媒体信息的物理特征和内容特征进行著录和标引,把它们转换成文本信息或者添加文本说明,建立数据库,检索时主要在此数据库中进行文本匹配。

可检索的内容主要有文件类型、标题、内容描述、人工标引的信息(如物体、背景、构成、颜色特征、分类以及文本描述)。

一般来说,可以用于检索的信息有:(1) 文件扩展名和超文本标识。

图像文件常用. gif和. jpg 作为扩展名,声音文件常用. mid、. wav、. au等作为扩展名,影像文件的常用扩展名为. avi( 微软公司影像文件的标准扩展名) 、. mov、.movie、. qt (最初为苹果公司的mackintosh 系统专用的影像文件的扩展名,现在也可用于Unix 和Win2dows 系统) 、. rm、. rv(这是Real Networks 所用的影像文件的扩展名) 、. mpeg、. mpg (这是网络上影像文件的标准格式) 等。

在多媒体搜索引擎中,可以利用文件的扩展名进行检索。

例如: < IMG SRC > 和<HREF > 两个超文本标识符可以用来检测是否存在可显示的图像文件, < IMG SRC > 表示“显示下面的图像文件”, < HREF > 表示“下面是一个链接”,这两种标签经常指向一个图像文件。

(2) 标题和文字描述。

多媒体信息往往带有标题和文字描述,这些也可以用来进行检索。

另外,在超文本文件的IMG标识符中,有AL T 选择符时用文字告知只显示纯文本的用户,在某个位臵上原来应有什么图像,这也可以作为检索的依据。

(3) 人工标引的信息。

由人工对多媒体信息的内容(如物体、背景、构成、颜色特征等) 进行描述并分类,给出文本描述词。

检索时,主要在这些描述词中搜索用户的检索词。

1. 2 基于内容的多媒体搜索引擎基于内容特征的多媒体搜索引擎是多媒体搜索引擎的发展趋势,目前这种搜索引擎还不多见。

当前也有一些多媒体搜索引擎积极进行这方面的实践,初步展示出了这种多媒体检索技术的魅力。

基内容特征的多媒体搜索引擎是直接对媒体内容特征和上下文语义环境进行的检索。

基于这种方法的搜索引擎一般由两部分组成:数据库生成系统和查询子系统。

具体而言,就是多媒体信息标引系统和检索系统。

标引系统首先完成对多媒体的预处理和提取特征等,建立起多媒体信息数据库系统。

这个系统包括信息库、特征库和知识库。

信息库储存数字化的多媒体信息;特征库储存多媒体内容特征和客观特征;知识库储存专门和综合性知识,有利于查询优化和快速匹配。

检索系统则先对用户输入的多媒体信息进行特征提取,然后在多媒体特征库中进行检索,将与用户要求最相似的信息输出。

基于内容特征的多媒体搜索引擎和基于文本描述的搜索引擎的一个重要区别,就是以相似匹配来代替精确匹配,因为相同内容的多媒体信息的表现形式可能不同。

用户在进行检索时,只需先将所需信息的大致特征描述出来,就可以找出与检索提问具有相近特征的多媒体信息,然后可以在给出的结果中作进一步的查询,直至获得符合要求的结果。

一般而言,可用于网络检索的多媒体信息的内容特征大致有以下几种:(1) 图像的颜色、纹理、形状等。

颜色特征是图像最直观、最明显的特征。

利用颜色,用户不仅可以查检颜色不同的图像,而且可以规定不同色彩之间的比例、主体与背景颜色等。

纹理是指图像在局部区域内可能呈现出不规则性而在整体上却表现出某种规律性。

对纹理的检索一般采用QBE(Query ByExample) 方式,用户可以通过调整粗糙度、方向性和对比度等逐步逼近要检索的目标。

形状是图像的另一个显著的特征。

用户通过对图像的形状或轮廓的勾勒以及利用搜索引擎给出的检索示范图,可从图像库中检出形状相似的图像。

(2) 声音的音频、响度、频度和音色等。

用户可以通过声音的各种特征,进行赋值检索(用户指定某些声学特征的值或者范围来检索) 、示例匹配检索(用户提交或者选择一个示例声音,针对某个或者某些特征,检出所有与示例相似的声音) 、浏览检索(用某种或某些特征对声音进行分类和分组,在检索时就像浏览现在的网络分类目录一样检索到相关信息) 。

(3) 影像的视频特征、运动特征等。

视频信息一般用场景、镜头和帧来描述。

动态视频检索需要对视频信息进行视频分割、代表帧抽取、图像拼接等。

同时,还要反映出视频的动态特征,如摄影机操作(摇镜头、推拉等) 、目标运动及运动幅度,并需要进行主运动估计、层描述等信息处理,形成视频信息特征。

一旦建立视频内容的表示后,就可以在此基础上进行基于内容的视频检索。

常用的检索方法有视频特征说明文字查询和示例查询,用户也可以在检索时指定特定的特征集。

最新的研究主要集中在视频和音频的融合。

早期基于内容检索的研究主要局限于可视信息处理,因而包含视听内容的影像分割和图像分析工作只能用视频特征完成。

随着声音特征大量增加,用声音和图像特征相结合来描述变得十分重要。

在许多应用领域,这种结合被证明非常好,因为用另外一个信息特征访问变得可行。

例如,在对足球比赛的场面进行分析时,可考虑用分哨声和表征观众热情的音量增大现象,来探测进球的可能性。

2 常见的多媒体搜索引擎2. 1 基于文本描述的目前,网上的大部分多媒体搜索引擎都属于此类。

其中,有以下几种常用的多媒体搜索引擎,如:专门的多媒体搜索引擎1 .PlayAudioVideo:/综合搜索引擎的多媒体搜索1.百度:图片、视频、MP32.搜狗:音乐、图片、视频3.有道:图片、音乐、视频4.中搜:MP3、图片5.爱问:音乐、图片6.搜搜:图片、视频、音乐7.Google:图片、视频8.必应:图片、视频9.Lycos:图片、视频10.Yahoo!图片搜索:/全球20亿中文图片搜索11.Alta Vist它们都支持图像、声音、影像等媒体类型,且都支持布尔检索及加减检索,但检索范围基本上限制在WWW 范围内。

2. 2 基于内容描述的这种类型的多媒体搜索引擎目前还不多见,且主要用于图像检索。

主要有以下几种:(1) QBIC (Query By Image Content ) 。

QBIC(http :/ / www. qbic. almaden. com) 是IBM 公司于20 世纪90 年代研制的,它是标准的基于内容特征的检索系统。

QBIC 提供的检索途径有: 利用系统提供的标准范图;用户自己输入图像、简图或影像片段。

( 2 ) WeebSeek 。

WeebSeek ( http/ / : www.columbia. edu/ webseek) 是美国哥伦比亚大学研制的示范性图像检索系统, 用户可以通过它来了解如何依据内容特征检索图像信息。

目前,借助其软件从网上收集到了超过60 万幅的图像。

WeebSeek 把所有的图像信息分为16 个大类,每个大类下再进一步细分,用户可以浏览检索。

除此之外,WeebSeek 还提供关键词检索和多媒体内容特征检索两种检索途径。

但WeebSeek 直接接受单个关键词检索,无法满足多语词的检索提问。

在图像内容特征检索中,用户可以从图像的颜色、纹理和色彩构成等方面,来查询图像信息。

( 3 ) ImageRover 。

ImageRover ( http/ / : cs -www. bu. edu/ groups/ ivc/ ImageRover/ Home. html)是基于因特网的图像导航器。

它通过HTML 文件,将可视化信息和文本信息统一起来,通过文件采集子系统在因特网上采集网页,通过图像检索系统检索这些网页中的图像。

检索时,它要求用户首先输入关键词进行检索,然后在检索结果里再选择根据图像的内容特征或者语义特征进行进一步的检索。

(4) 上海交通大学的音乐数据库检索系统。

它除了提供基于文本描述的声音检索系统的曲名、作曲者、演奏者、主题类别外,还提供乐句和全曲作为检索途径。

乐句是一个乐曲的主题词,其表现形式为简谱。

检索时,将输入的字符序列和音乐数据库的字符序列相匹配。

在乐句检索中,只需输入其简谱的音高部分,而不需输入时值。

在检索中,也可以采用前截词或后截词检索, 用“ * ”表示, 如* 3321612 * ,表示前后截词。

这是相当重要的。

因为音乐的演奏形式会经常变化,而且检索者对旋律的记忆不很准确。

这时就需要模糊检索功能。

全曲是对乐曲的整个简谱进行检索,系统已将整个乐谱进行自动分割,其检索方法同乐句检索。

3 现有多媒体搜索引擎存在的问题(1) 覆盖面太小。

作为搜索引擎,其索引数据库必须要有相当大的容量,才能够保证其有一定的代表性和实用性。

多媒体信息较文本信息要复杂得多,标引起来的工作量也相当惊人,所以其覆盖比率目前还较低。

另外,作为检索工具,它不仅要能检索WWW信息资源, 而且对FTP、Telnet 、Newsgroup等网络信息资源也要能检索。

可惜的是,现有的多媒体搜索引擎大多数只能检索WWW 信息。

(2) 检索功能不完善。

目前,基于文本描述的多媒体搜索引擎几乎完全是依赖于对多媒体信息的文字描述,因而多媒体信息只有转换成文本信息后才能进行检索,这可以说是原来文本检索的翻版,在检索技术上没有多大的突破,在检索功能上自然有极大的局限。

基于内容描述的多媒体搜索引擎中的很多技术,由于目前尚处于理论研究阶段,一些技术还不成熟,因而其检索功能没有得到充分发挥,而且主要是对静态图像进行检索,对动态图像还没有多少行之有效的办法,但随着宽带网络的逐步实现,动态多媒体信息在网络中会越来越多。

(3) 检索效果不理想。

检索效果是通过检索效率体现出来的。

检索效率一般可以用检准率、检全率和一次检索所花费的时间来衡量。

目前,基于文本描述的多媒体搜索引擎检索的检准率太低。

有人作过实验:在AltaVista 中的图像搜索中以titanic 作为检索词,共得到17588 个检索结果,其中只有少量是检索者想要的titanic 号船的图片;要想得到最相关的结果,就必须修改检索策略,而这就要对所使用的搜索引擎有充分的了解并多次尝试。

相关主题