多媒体元数据研究
7).商标库的注册和检索
---- 通常情况下,商标是二维图像,包含文本、图画或图片 以及象征性的颜色。二维商标可以分为三类:文字商标 (仅仅包含文字,适合用文本注释来描述)、图案商标(仅 仅包含图形或象征性标志,需要形状描述)、组合形式的 商标(包含字符和图形)。
4.3 MPEG-7的“推”应用
---- 特征(Feature) 指数据的特性。特征本身不能比较,而要 用有意义的特征表示(描述子)和它的实例(描述值)。如图 像的颜色、语音的声调、音频的旋律等。
---- 描述子(Descriptor,D) 是特征的表示。它定义特征表示 的句法和语义,可以赋予描述值。一个特征可能有多个 描述子,如颜色特征可能的描述子有:颜色直方图、频 率分量的平均值、运动的场描述、标题文本等。
MPEG-1:存储和回放
MPEG-1制定于1993年,是针对1.5Mbps以下数 据传输率的数字存储媒介运动图像及其伴音编码 的国际标准,主要用于在CD-ROM上存储同步和 彩色运动视频信号。
MPEG-2:数字电视
MPEG-2出台于1995年,它是针对HDTV和DVD 等制定的3Mbps~10Mbps的运动图像及其伴音的 编码标准。它的出现使得基于CD-ROM的交互式 电视和数字电视成为了可能。
---- 面向消费者的选择技术可以用于个人化视听节目的应 用。在收集与个人相关的新闻节目方面,这甚至可以做 到比典型的VOD更进一步。例如,一个面向内容生产商 的选择技术可以在片段和镜头级从数据库中收集原始资 料。
“推”应用
2).个人化电视服务
-- 在广播领域,内容的描述可以辅助广播数据的选择,所选择的 广播数据形式可以是即时的或以后要观看的,或录像形式的。 对于个人化广播,提供给用户的数据可以按照用户自己的喜 好来对广播流进行过滤,其形式可以是自动方式的,例如根 据地理位置、年龄、性别或以前的选择行为自动选择,或是 半自动方式(基于预定的设置)。结合NVOD(准视频点播)服务, 可以基于关键帧实现步进/后退操作,加速节目的表现。对于 未来的广播服务,与节目中特定事件相关的交互功能也很重 要。
“拉”应用
6).通过听觉事件进行电影场景检索
---- 许多视觉场景是与声音事件相关的。例如在喜剧电影或 电视场景中,人们可以通过记忆的对话和台词来检索电 影的场景。另外,还可以通过明显的声音事件来检索, 例如通过观众的欢呼声和解说员的解说词检索足球进球 的场景,通过爆炸声检索战斗和破坏场景等。音轨中的 听觉事件也同样具有这样的检索能力。该应用利用语音 的描述和声音效果的描述来实现检索。
---- 描ቤተ መጻሕፍቲ ባይዱ值(Descriptor Value) 是描述子的实例。描述值与描 述模式结合,形成描述。
----
描述模式(Description Scheme,DS) 说明其成员之间的关 系结构和语义。成员可以是描述子和描述模式。DS和D 的区别是:D仅仅包含基本的数据类型,不引用其他D或 DS。如对于影片,时间结构化为场景和镜头,在场景级 包括一些文本描述子,在镜头级包含颜色、运动和一些 音频描述子。
---- 描述(Description) 一个描述由一个描述模式(结构)和一组 描述值组成。
---- 编码的描述(Coded Description) 是对已完成编码的描述, 满足诸如压缩效率、差错恢复和随机存取的相关要求。
---- 描述定义语言(Description Definition Language,DDL) 是一种允许产生新的描述模式和描述子的语言,允许扩 展和修改现有的描述机制。
---- (2) 描述数据的听觉化
---- 类似视觉数据的要求。
---- (3) 听觉数据格式
---- 数字音频(如MPEG-1音频、CD)、模拟音频(如录音带介质)、 MIDI(包括一般的MIDI和Karaoke格式)、基于模型的音频、产品数 据。
---- (4) 听觉数据类
---- 声音轨迹(自然音频场景)、音乐、原子声音效果(如掌声)、语音、符 号音频表示(MIDI、SNHC音频)、混音信息(包括效果)。
MPEG-7对视觉数据的描述
MPEG-7具体对视觉方面的描述子和描述模式有以下方面的要求:
(1) 特征类型
---- 视觉描述允许以下特征(与查询中使用的信息类型有关):颜色、视觉 对象、纹理、轮廓(草图)、形状、静止和动态图像、体积、空间关系 (相对于图像和图像序列中的对象空间和拓扑关系,这个关系是空间 合成关系)、运动(如视频镜头中的运动,用于利用时间合成信息来检 索等方面)、变形(如对象的弯曲)、视觉对象的源和它的特性(如源对 象、源事件、源属性、事件、事件属性等)、模型(如MPEG-4 SNHC)。
(2) 利用描述进行数据可视化
---- MPEG-7数据描述应该容许被索引数据或多或少地粗略可视化。
(3) 可视数据的格式
---- 支持以下可视数据格式:数字视频和电影(例如MPEG- 1/2/4)、模拟 视频和电影、电子形式的静态图像(如JPEG)或纸上的图像、图形、 3D模型以及与视频关联的编辑数据。
多媒体元数据研究
1、多媒体资源
Audio Visual Metadata ECHO (European Chronicles On-line,欧洲编
年史在线) MEPG-7
MPEG-21
VRA Core Categories EAD(编码文档描述)
2、数字图像资源
MOA (the Making of American) 2 数字图像 元数据
MPEG-4:基于对象的存取
MPEG-4于1999年成为国际标准。它和MPEG-1 和MPEG-2的重点在于编码效率上不同的是, MPEG-4的目标是提出一种新的方式来传输、访 问和操作数字视听数据。MPEG-4计划为多种通 讯规范提供一种普遍的技术解决方案,最终消除 它们之间的差别。与MPEG-1和MPEG-2的另一点 不同是,MPEG-1和MPEG-2是基于帧的规范,而 MPEG-4则是基于对象的规范。
---- 相似的与音乐销售有关的应用是把可选择的音乐库扩 展到用户家里。人们可以容易地访问在线数据库,用基 于内容的方式(结合歌手名、风格、歌名、创作年代等), 查找感兴趣的歌曲和音乐作品,并付费下载。
“拉”应用
4).声音效果库
---- 对于要使用大容量声音效果数据库的艺术家和声音设计 人员,常规的数据库管理和搜索方法是不够的。一个声 音设计人员要求从声音效果库中选择出要求的声音效果, 其选择方式可能是由设计人员提供原型化的声音和音频 特征,甚至可以发出类似要查找的声音,通过拟声方式 查询。
- 5).历史语音数据库
---- 可以通过口头关键词、关键事件、说话人、地点、日期, 或以上属性的组合来搜索历史数据库中的音频录音和视 听演讲。这种应用也可以辅助教育或新闻业应用。例如, 用户说一句关键词:I have a dream, 系统把语音转换为 文本关键词,查找出马丁·路德金的录音和演讲文本。
----
为了更好地理解这些术语,请参看图1。图中解释了
MPEG-7在实际系统中的位置。圆角框表示处理工具,矩 形框表示静态元素,阴影部分包含MPEG-7标准的规范元 素:DDL提供建立描述模式的机制,然后将描述模式作 为基础,产生一个描述。
MPEG-7的范围
下图是MPEG-7处理链的一种高度抽象示意图,用于解释 MPEG-7的范围。它包括特征抽取(分析)、描述本身和搜 索引擎(应用)。
4.2 MPEG-7的“拉”应用
1).视频数据库的存储和检索 ---- 电视和电影档案中保存有大量的各种格式的多媒体资
料,如数字、模拟磁带和胶片、CD等,这些资料不一定 有描述信息(元数据),即使有也大都是简单的文本描述, 它们以专用的格式存储在数据库中,因此,需要按照国 际标准格式进行存储和交换。另外,要对大量旧的模拟 视听资料进行数字化,在数字化和压缩阶段,可以在数 据库中使其包含基于内容的索引特征。对于新的视听媒 体,在视频生产的各个阶段可以把描述信息附加在视频 流上,从而极大地提高了用手工进行有限词汇注释的质 量和生产率。
与以上的“拉”应用相反,下面的“推”应用 类似于广播和Web广播。“推”应用用到“选择” 和“过滤”,而不是“索引”和“检索”,因此 有非常不同的要求。通常它们涉及到流描述,而 不是存储在数据库中的静态描述。
“推”应用
1).用户代理驱动的媒体选择和过滤
--- - 过滤与搜索正好相反。搜索涉及“拉”信息,而过滤 意味着“推”信息。搜索请求“包含”那些信息,而过 滤“排斥”指定的数据,但二者都从相同的元信息中获 得好处。广播媒体这种形式正向WWW转移,使WWW 这种典型的 “拉”媒体同时具有广播的能力。
“拉”应用
2).专业媒体制作方面的图片和视频提交
---- 演播室需要向电视频道提交适当的视频,另外还需要 编辑一段库中的视频,如编辑记录片和广告片等。
---- 在这个应用中,用户是专业性的。演播人员可以基于 元数据和视频片段来提交一个完整的视频,可以基于客 观特性和主观特性来查询出想要的视频片段并用于编辑。 查询也可以作用于分布数据库,以获得视觉、版权和价 格信息,以及源视频资料的技术质量数据。
CDL数字图像元数据
Dig35 NISO/CLIR/RLG的图像技术元数据
4、MPEG系列标准(1、2、4、7、21)
MPEG是专门从事多媒体音、视频压缩技术标 准制定的国际组织,成员包括来自近30个国家、200 多个公司的400多位专家。该组织自1988年以来, 已经制定了一系列国际标准,其中MPEG-1、 MPEG-2已为人们所熟知,它们为VCD、DVD及数 字电视等产业的发展奠定了基础。目前正在制定的 MPEG-4、MPEG-7和MPEG-21将为多媒体数据压 缩和基于内容检索的数据库应用提供一个更为通用的 平台,必将对下一代视、音频系统和网络应用产生深 远的影响。