当前位置:文档之家› 多媒体数据基于内容检索综述

多媒体数据基于内容检索综述

£ \/ 

第4期(总第76期) №1(Serial№76) 情报探索 Information Research 2000年1 2月 

Dec.2000 

多媒体数据基于内容检索综述 黄 蕾 (南开大学国际商学院图书馆学系 天津300071) 摘要试对多媒体数据基于内容检索的概念、特点、类型、系统结构、检索过程、实际应用 厦有待研 究的关键技术等方面进行综合论述 

和字符型为主。而在多媒体数据库中集成图像、视频、 音频等非格式化信息,它们具有数据量太、信息不定 长、结构复杂等特点 每一种媒体数据都有一些难“用 字符和数字符号描述的内容线索.如图像中某一对象 的形状、颜色和纹理,视频中的运动,声音的音调等。当 用户要利用这些线索对数据进行检索时,首先要将其 人工转化为文本或关键词形式 这种转换带有一定的 主观性,且极其费时 因而仅仅基于关键诃的检索已不 能满足用户的检索要求。数据库及其它信息系统不仅 要艟对图像、视频和声音等媒体进行存储以及基于关 键字的检索,而且要耐多媒体数据内容进行自动语义 分析、表达和检索。基于内容的检索正是这样一种应运 而生的多媒体数据库检索方法= 1暮于内窖检索的概念 基于内容的检索(CBR,即Content Based Re trievaD是多媒体数据库信息检索中的一门新兴的技 术。它是指从多媒体数据中直接提取出对象的语义、特 征(如图像的颜色、纹理、形状.视频中的镜头、场景、镜 头的运动,声音的音色、音调、响度等),然后根据这些 线索从大量存储在数据库中的媒体进行查找,检索出 具有相似特性的媒体数据来 CBR能从大型分布数据 库(索)中、以用户可以接受的响应时间,查询到所要求 的信息。它不需要理解或识别媒体中的对象,所关注的 是基于内容.并快速地发现信息。 2基于内窖检索的特点 (1) 综合性学科为基础:基于内容检索属于多媒 体韵综合集成技术:它利用图像处理、模式识别、计算 机视觉、图像理解等学科中的 些方法作为部分基础 技术,从认知科学、用户模型、图像处理、模式识别、知 识库系统、计算机图形学、数据库管理系统.“及信息 检索等领域中获得启发,引人新的媒体数据表示和数 据模型.产生出有效、可靠的查询处理算法和可砚化查 询接口,以及与领域无关的检索技术和系统结构 (2)客观性:从媒体内容中提取信息线索 基于内 容的检索突破了传统的基于表达式检索的局限.它直 接对图像、视频、音频内容进行分析,抽取媒体语义和 视觉、听觉等特征,利用这些内容特征建立索目f,并进 行检索。由于突破了传统的基于文字表达符的局限.避 免了用字符标识图像的转化过程,从而太大提高了检 索过程的效率和适应性。 (3)相似性比较:基于内容的检索是一种近似匹 配 由于对内容的表示不是一种精确描述+因此,CBR 采用相似性匹配的方法逐步求精.以获得查询结果,即 不断减小查询结果的范围,直到定位于要求的目标,这 是一个迭代过程。这一点与常规数据库检索中的精确 匹配方法不同。 (4)交互性查拽:CBR系统充分发挥人和计算机 各自的长处,利用人对于物体的内容特征比较敏感、而 计算机善于从大量数据中标识对象和从事重复性的工 作,把交互操作引人到查询过程中。 ( )直观的查询方式= (6)大型数据库(集)的快速检索。 3基于内容检索的系统结构 完整的CBR系统一般由两个子系统掏成,即数据 库生成子系统和查询子系统 每个子系统由相应的功 能模块和部件组成 (1)对象标识:为用户提供种工具,以皇自动或 半自动(需用户部分干预)的方式对静志图像 视频镜 头的代表帧等媒体中用户感兴趣的区域(静态对象)及 

维普资讯 http://www.cqvip.com 第4期(总第76期) 黄蕾:多媒体数据基于内容检索综述 45 视频序列中的动态对象进行标识,“便针对对象进行 特征提取、描述和查询。如果进行整体内容的检索,则 可利用全局特征,而不用对象标识功能。对象标识是可 选的。 (2)特征提取:对视频、图像等多媒体数据自动或 半自动地提取用户感兴趣的、适台检索要求的特征。特 征提取可以是全局性的.如针对整幅图像和视频镜头, 也可以是针对某十对象的,如图像中的子区域、视频中 的运动对象等。 (3)数据库:数据库由媒体库 特征库和知识库组 成。媒体库包含多媒体数据,如图像、视频、音频、文本 等:特征库包含用户输^的客观特征和预处理自动提 取的内容特征{知识库包含领域知识和通用知识,其中 的知识表达可以更换.“适应不同领域的应用要求 (4)用户查询和浏览接口:主要以示例查询(QBE) 和模糊描述等可视查询形式向用户提供查询接口。查 询允许针对对象、整件图像、视频镜头 及任意特征的 组台形式来进行。由于多媒体数据的视觉和听觉特性, 不仅查询时需要通过浏览确定查询要求,而且查询后 返回的结果也需要浏览.尤其是视频浏览。 (5)检索(匹配)目i擎 检索是利用特征之问的距离 函数来进行相似性匹配.模仿人类的认知过程.近似得 到数据库的认知排序.对于不同媒体的数据类型,具有 各自不同的相似性测度算法.在检索(匹配)引擎中包 括一个较为有效、可靠的相似性测度函数集; (6)索目i/过滤器:检索 【擎通过索引/过滤机制来 达到快速搜索的目的,从而可以应用于大型多嫫体数 据集中 过滤器作用于全部数据,过穗出的数据集台再 用高维特征匹配来检索。索引用于低维特征.可以利用 R树. 加快检索。 4基于内客的查询和检索过程 基于内容的查询和授索是一十逐步求精的过程. 检索经历了一十特征调整、重新匹配的循环过程。 (1)初始查询说明:用户查找一十对象时,最初可 以用QBE或查询语言来形成一十查询 系统提取该示 例的特征或把查询描述映射为具体的特征矢量 (2)相似性匹配:将查询特征与特征库中的特征按 照一定的匹配算法进行相似匹配。 (3)相似度排列:满足一定相似性条件的一组候选 结果,按相似度大小排列后返回绐用户。 (4)特征调整 对系统返回的查询结果,用户可以 通过浏览米挑选.直至得到满意的结果.或者从候选结 果中选择一1、示例.经过特征橱整后,形成一个新的查 询。 5基于内客检索的类型 (1)图像查询:主要依据图像的颜色、纹理、形状特 征, 及图像中子图像(目标,又嚣对象)的特征进行检 索。其中有: a颜色查询。 b.纹理查询 c.形状查询:利用形状特征(区域、主轴方向、矩、 偏心率、圆形率、正切角等)或匹配主要边界进行检索。 d.图像对象查询:对图像中所包含的静态子对泉 进行查询。查询条件可以综台利用颜色、纹理,形状特 征、逻辑特征和客观属性等 (2)视频浏览和检索:视频数据巨大的数据量和丰 富的表现内容不是几十关键诃所能包含的。视频检索 就是在大量的视频数据中找到所需要的视频片断。基 于内容的视频检索是指,用户可 指出其所想要的镜 头的一些特点.如该镜头的颜色主色调、运动特点等, 根据这些要求由计算机查找出相应的视频镜头,并反 馈给用户做进一步的选择。其用途非常广泛.如各类体 育节目的检索、卫星云图变化情况的检索等。 视频可用场景、镜头、帧来描述 基于关键帧的检 索对代表视频镜头的关键帧进行检索。关键帧是一幅 幅图像,可以采用与图像检索相似的方法。一旦检索到 目标关键帧,用户就可以利用播放来观看它所代表的 视频片断。 (3)声音查询 利用声学的和主观的特性进行查 询。声音的一些感知特性.如音调、哺度、音色等,它们 与音频信号的测量属性非常接近,因此,可在音频数据 库中记录这些特征,并利用这些特征进行示例和指定 特征值查询。 (4)图形查询:基于空间的结束关系进行查询。包 括: a点查询查:找某坐标处的目标 b.线查询查 找线状目标两侧的目标 例如查找 公路两侧的建筑。 c.区域查询:查找某区域内的图形目标 d.关联查询:利用两十或多十图形对泉之间的空 间和拓扑关系来查询。空间约束关系可以为方向、部 接、包含等。 (5)文本查询:心往文本资料的检索是利用关键词 标引,采用传统的数据库技术米实现管理和检索。然 而,由于关键词标引工作量大,而且标 I同用户的检索 概念可能不一致,导致查准率和查全率低。因此,需采 用直接对文本进行任意词和字的检索 根据实现方法 的不同,其检索拄术丹为串搜索、串匹配和全文检索, 以字和词“及它们的逻辑组合为条件进行查询。 以上查询类型并不一定同时用于某一应用。对于 个具体应用来说,可能只需要其中的几种查询,或利 用以上查询类型作为基本操作来构造复合的查询。 

维普资讯 http://www.cqvip.com 情报探索 2000阜】2月 6基于内容检索的应用 基于内容的多媒体信息检索是一项实用的高技 术,有着广阔的应用前景 目前主要应用于以下几个方 面 将基于内容检索引擎嵌^到常规效据库管理系统 中,以实现多媒体数据的检索;在信息检索系统中 对 专用领域的视频、图像和文档库进行检索;对[nternet 上包含在Web信息网中HTML页面上的多媒体数据 进行基于内容检索等 早期的全文信息捡索、罪犯头像的识别和管理 指 纹的识别和管理都是基于内容检索的一些尝试 现在 这种技术将扩展到任何媒体和更广泛的领域 例如,艺 术画廊和博物馆管理、建筑与工程设计、地理资源遥感 与管理、地理信息系统 商标及版权数据库管理、数字 视频图书馆、Www信息蒯览、多媒体CAI应用、多媒 体出版、电子会议、远程教学 远程医疗、天气预报、服 装设计、军事指挥系统等方面 目前,国际上对基于内容的检索技术进行了根多 实际性的研究.取得了许多成果,一些原型系统已发布 在Internet网上。例如,IBM公司的QBIC(Query By ImageContent)系统、Visua[SEEk系统等 7有待研究的关键技术 对于多媒体基于内容的检索研究虽已取得许多成 果 推出了一些原型系统,某些技术已用于商用数据库 及信息检索系统中。然而,还有许多问题需要进一步 深^研究。 (1)数据模型:数据摸型是CBR系统的核心.模型 决定CBR支持的查询类型和检索能力 建立的数据摸 型要能够充分反映媒体对象的内容,反映与领域无关 的和能够有效存储的物理特征及逻辑特征。 (2)特征提取和语义获取:需要易用的能对原始特 征进行抽取的自动工具和获取逻辑特征的半自动工 具t用于开发大型、实用的多媒体信息检索系统 另外. 还需要新的特征表示方法,如基于分形或小渡的特征 数学表示。 (3)基于内容的编码:现在我们使用的媒体.其格 式和编码投有考虑到内容,只是针对颜色、象素、样值 来编码一因此,从这些数据中抽取内容特征非常困难。 如果我们在对媒体数据编码表示时就考虑剐媒体的内 容.即媒体包古其表示内容的信息.那,厶 对这些数据 的内容进行检索就台更有效与准确。目前这方面的工 作已经取得很大的进展。例如即将成为国际标准的基 于内容的编码标准MPEG一4和多媒体数据内容表示 国际标准MPEG一7。 (4)查询说明模式 对于特定类型的查询,该领域 专家可能宁愿需要一种功能丰富的复杂的图形接El, 以支持多种形式的查询类型=而非正式和普通用户可 能宁愿用自然语言来i兑明查询 从映射自然语言查询 到通用查询类型仍然需要进一步研究。 (5)索引和性能:研究适台于大型多媒体库检索的 索引结构和过滤器,靖短系统的响应时问,提高查询效 率。 (6)集成查询:用基于内容的查询补充和扩展已存 在的数据库查询及信息存取方法=应用系统应能把日 期、价格等客观属性与内容特征 姐颜色、纹理和形状 等结台在一起集成查询。 (7)扩展性和灵活性 系统的体系结构应该支持更 新与扩充新的特征表示和新的匹配/相似性度量算法, 以使系统查询及检索的性能和功能不断增强 参考文献 1梁永垒,邓隆兴,多媒体数据存储 计算机世界, 1998(37) 2李国辉,王辰,薛峰.几种典型的基于内容检索系 统.计算机世界.1998(20) 3李国辉.胡晓峰.基于内容的检索.计算机世界. 1998(2O) 4曹莉华,胡跷峰,李目辉基于视频内容的检索. 计算机世界.1998(2∞ 5熊华.李国辉MPEG一4对基于内容应用的支持. 计算机世界.1998(20) 6胡晓峰一李国辉.多媒体系统 北京:人民邮电出 版杜,1997 7顾君忠.多媒体信息技术及其应用.沈阳:辽宁科 学技术出版社.1997 8杨学良多媒体计算机技术及其应用.北京:电子 工业出版社 t996 9郑庆华.李人厚,胡峻.多媒体数据库的主要问题、 研究内容与实现方法计算机工程与应用.1998 (1).1~4 

相关主题