当前位置:文档之家› 第七章 多媒体信息检索

第七章 多媒体信息检索


基于内容的多媒体信息检索系统体系结构
视频
帧 :数字视频利用人的眼睛的视觉暂留原理,将
一系列顺序排列的静态画面连续播放,从而产生 动态效果,其中的每一个画面就是该视频文件的 一帧。 全运动播放:播放速度在30帧/s以上,播放的 效果才不会感到跳跃和闪烁,这样的播放速度即 所谓全运动播放。 全屏幕播放:视频的播放满足画面大小为640 x 480以上、颜色在256色以上,即可以在整个显示 器屏禁区域播放,而不仅仅是在一个小窗口播放, 即为全屏幕播放。
视频搜索引擎
Google视频搜索
/videohp?hl=zhCN 视频搜索/ SoSo视频搜索/音乐搜索引擎
搜刮网( http:// )
音乐方面的专业共享网站
九天音乐网()
基于内容的多媒体信息检索
基于内容特征的信息检索技术(Content Based Retrieval,简称CBR),
是一种新的检索技术,是对多媒体对象的内容及上下文语义环境进行 检索 原理:提取特征并进行量化,表示成向量空间,建立索引库,将用户 提问转化成向量,并与已有信息的向量空间进行相似度匹配计算。 常用多媒体文件特征: ①图像:颜色、纹理及时空关系等 ②视频:对象运动特征、颜色和光线变化等 ③音频:时域、频域、时频、短时帧和音频特征等 普及程度:局限在较小的数据集合上,大多只是实验室研究成果 优势:源于多媒体内容本身的特征信息,具有客观性 劣势:①复杂度高 ②语言鸿沟 ③选取好的特征的难度大、特征的量化、建模、建立向量空间 复杂。
文字搜索引擎不同的是,查到的最终结果,不是文字形式 的类目名、网站名和网页内容,而是一幅幅缩微图片,以 及与图片相关的介绍和地址链接。 Googl8/) Lycos (/) Alltheweb图像搜索(/)
图片文件的格式类型
位图:是由许多个像素点组成的图片,相应的图片文件记
录了图形或图像的每一个像素点的位置及代表该像素颜色 的数值等信息。根据有无压缩或压缩的方法等,该类型的 图片文件又分为许多种格式,如:.bmp图 、.tif图 、.gif 图 、.jpg图。 矢量图:是计算机通过数学运算而产生的图形,而不是像 位图那样逐点描述的,因此,该图形所占容量很小,而且 它的显示效果不受大小或显示器分辨率的影响。 矢量图的文件格式视生成它的软件的不同而不同。矢量图 形格式也很多,如Adobe Illustrator的*.AI、*.EPS和 SVG、AutoCAD的*.dwg和dxf、Corel DRAW的*.cdr、 windows标准图元文件*.wmf和增强型图元文件*.emf等 等。
多媒体数据模型
P297
扩充关系模型:关系数据库中存储了多媒
体对象的位置信息,如关键词、 文本标题、 数据的存储路径及名称等描述信息 面向对象的数据模型: OODB,利用 ODQL语言实现数据库的查询,在SQL功 能的基础之上增加了适合基于内容检索的 机制,如复杂的信息建模能力。 超媒体数据模型
型和应用对象都不同、处理方式也不同。 多媒体数据库存储和处理复杂对象,其存储技术 需要增加新的功能,如数据压缩和解压。 多媒体数据库面向应用,没有单一的数据模型适 应所有情况 多媒体数据库强调媒体独立性 多媒体数据库强调对象的物理表现和交互方式, 强调最终用户界面的灵活性和多样性。 多媒体数据库具有更强的对象访问手段。
数字视频文件格式
多媒体应用中使用的动画文件主要有GIF、AVI、
SWF等等。 GIF文件:可保存单帧或多帧图像,支持循环播 放。GIF文件小,是网络唯一支持的动画图形格 式,在因特网上非常流行。GIF与JPG的区别在 于它支持透明格式,虽然图像压缩比不及JPG文 件,但是具有更快的传送速度。 SWF文件:是Macromedia公司的Flash动画文件 格式,需要用专门的播放器才能播放,所占内存 空间小,在网页上使用广泛。
多媒体信息检索的流程
主要工作流程: 内容获取、内容描述、内容操作 先对原始媒体进行处理,提取内容,然后用标准
形式对它们进行描述,来支持用户对内容的操作。 内容获取通过各种内容分析和处理,而获得媒体 内容的过程,它包括信息分割、特征提取两个部 分。 信息分割分成图像分割与视频分割。 内容获取核心是特征提取。特征提取就是提取内 容显著的特征和人的视觉、听觉方面的感知特征 来表示媒体和媒体对象的性质,特征提取有自动 特征提取和人工交互或提取两种方式。
多媒体信息检索
南京中医药大学 文献检索教研室
教学内容
多媒体信息检索基础知识
多媒体信息检索的方式 多媒体信息检索的分类检索
概述
多媒体:把不同的但相互关联的媒体集成在一起
而产生的一种存储、传播和表现信息的载体,通 常包括文本、音频、图形、图像、动画和视频。 多媒体信息:是各种媒体的组合体,即将音频、 视频、图像和计算机技术、通信技术集成到同一 数字环境中,以协同表示更丰富和复杂的信息。 多媒体信息检索:是多媒体信息的特征元数据提 取、索引建库,相似度匹配运算,识别和返回用 户所需信息,通过与用户之间的反馈,不断优化、 调整显示结果的过程。
普通搜索引擎
搜索图片、图像 – 格式:image:文件名 – 功能:检索含有指定文件名图像的所有网页。 搜索多媒体信息 – 格式:media: text – 功能:检索文件的名字中含有指定文字的多媒 体信息
图像搜索引擎
图像搜索引擎是专门用来搜索图形图像的搜索引擎。它与

多媒体信息的特点
数据量庞大
数据类型繁多 相关性强,同步性高
动态性强
多媒体信息的分类
按作用于人体感官形式划分
– – – – –
– – – – –
视觉类媒体:点阵图像、矢量图形、动画、视频、符号和文字等 听觉类媒体:波形声音、语音和音乐等 触觉类媒体:环境媒体,如皮肤感觉的温度、湿度 活动媒体 抽象事实媒体
声音
波形音频:是从真实的声音录制并数字化后而得到的一种声音文件,


这样的一个过程称为声音采样。采样频率越高,录制的声音效果就越 好,需要花费的代价是声音文件需要的存储空间加大了。波形音频文 件常见的格式有: Wave文件(*.wav) 、MPEG音频文件(.mp1 /.mp2/.mp3)、RealAudio文件(ra/.rm/.ram) 、WMA(.wma) 格式 。 MIDI是乐器数字接口(Musical Instuments Digital Interface)的英 文缩写,是数字音乐/电子合成乐器的统一的国际标准。 MIDI音乐是利用电子合成技术来模拟各种乐器音效的方法生成,它并 不对声音进行采样和量化,记录的也不是声音本身,它只是像记录乐 谱一样将每个音符记录为一个类似乐谱符号的数字,并且规定了各种 音调的混合发音,最后通过合成器将这些数字转化为对应的音效进而 组合成为音乐播出。 MIDI文件的数据量要比波形音频文件小得多,可用于满足播放较长时 间的音乐需要。 MIDI音乐毕竟是电子合成模拟的,其声音效果远不如真实乐器的效果, 而且回放的质量受声卡的影响比较大。
数字视频文件格式
AVI:Video for Windows所使用的文件称为音频-视频交错文件
பைடு நூலகம்

(Audio-Video Interleaved),文件扩展名为AVI。AVI格式的文件 将视频信号和音频信号混合交错地存储在一起,是一种不需要专门硬 件参与就可以实现大量视频压缩的视频文件格式。在各种多媒体演示 系统中被广泛应用。 AVI文件使用的压缩方法有好几种,主要使用有损压缩,压缩比高。 MOV文件:MOV文件格式是Quick for Windows视频处理软件所选 用的视频文件格式,与AVI文件格式相同,MOV文件也采用Intel公 司的Indeo视频有损压缩技术以及视频信息与音频信息混排技术,一 般认为,MOV文件的图像质量较AVI格式好。它是Macintosh计算机 用的视频文件格式。 MPG文件格式:PC机上的全屏幕活动视频的标准文件为MPG格式文 件,也称为系统文件或隔行数据流。 DAT文件格式:DAT是Video CD或Karaoke CD(卡拉 OK)数据文 件的扩展名,也是基于MPEG压缩方法的一种文件格式。 DIR文件格式:DIR是Macromedia公司使用的Director多媒体中搜Mp3搜索 / 搜狗音乐搜索 / 爱问音乐搜索引擎 /
感觉媒体 表示媒体 表现媒体 存储媒体 传输媒体
按照国际电信联盟ITU-T 建议划分
重点讨论的是感觉媒体和表示媒体,即声音、图形、图像、
文字、视频和动画等
图形与图像
图形与图像文件通常混称为图片文件。 特性
• ①分辨率 :图片文件都要在计算机的显示器屏幕上
显示出来,显示器是用均匀排列的像素来显示画面的, 因此文件也是由许多的像素来组成。一张图片其横行 的像素个数和竖列的像素个数便决定了该图片的大小。 如800×600,1024×768 • ②颜色数:通常,图片颜色数的可能的取值有:2色 (这时图片只有黑白两色)、16色、256色、16位增强色 (共216即65536种颜色)、24仿真彩色(共224即 16777216种颜色)等。自然图片的颜色数越多,图片的 视觉效果就越好。
多媒体数据库
是多媒体技术与数据库相结合产生的一种
新型数据库。 常包括图像数据库、视频数据库和音频数 据库 构造方法
– 在关系数据库的基础上构造多媒体数据库 – 在面向对象数据库的基础上构造多媒体数据库 – 分布式超媒体数据库
多媒体数据库与传统数据库的区别
处理的数据对象、数据类型、数据结构、数据模
多媒体信息检索的方式
基于文本方式的多媒体信息检索
基于内容的多媒体信息检索
基于文本方式的多媒体信息检索
首先对多媒体进行人工分析并抽取反映该多媒体
物理性和内容特征的关键词,然后对这些关键词进 行文字著录或标引,建立类似于文本文献的标引著 录数据库,从而将对多媒体信息检索转变成对上述 关键词的检索。 普及程度:是现行网络检索系统中的主流方式。 检索方式:信息分类、扩展名、关键词 优势:实现原理相对简单,技术成熟 劣势:具有主观性,仁者见仁、智者见智;多媒 体信息的多维性,人工描述难以穷尽
相关主题