当前位置:
文档之家› 图像场景分类与视频场景聚类研究综述
图像场景分类与视频场景聚类研究综述
>> 0 >> 1 >> 2 >> 3 >> 4 >>
场景边界检测
结构特征明显的视频:新闻,体育视频,访谈 等 一:基于规则的方法. 借助相关的领域知识或结构知识以及音视频文 本信息获得场景或故事单元,比如新闻节目的 每一个新闻条目就是一个故事单元,在内容上 描述相对独立的事件;但是该方法推广性能比 较差; 二:结合规则的基于多特征融合的统计方法。
• 3.解决办法 视频的结构化分析 为了在场景层次上对视频浏览,首先要把视 频分割为镜头,并用关键桢表示镜头,然后在镜头 的基础上将相似的镜头聚类构成场景,最后提取 基于场景的关键帧,即可得到浏览用的视频帧。 (一个视频示例)
>>
0
>>
1
>>
2
>>
3
>>
4
>>
1.1 视频的结构化分析
• 图
视频 Video
研究现状
场景是对视频高层语义的抽象,因此场景的形成 需要对视频更多的语义理解。目前使用镜头聚类 的方法是根据一些低层特征得到的,但是低层特征 相似距离小并不一定表示镜头本身的内容相似,目 前自动完成精确场景抽象仍具有相当的难度。 目前已有算法只能对某类特定场景提取效果较好, 距离达到实际应用的要求还远得很
>>
0
>>
1
>>
2
>>
3
>>
4
>>
主要研究者
• • • • A.Oliva&A.Torralba. (MIT) CSAI Laboratory(计算机科学与人工智能) Interest:scene and object recognition Publication:
Dense scene alignment using SIFT Flow for object recognition (CVPR09) Recognizing indoor scenes (CVPR09) LabelMe video: building a video database with human annotations (CVPR09) SIFT flow: dense correspondence across different scenes (Project ,ECCV08) Small codes and large databases for recognition (CVPR09)
Hanjalic(TU Delft-代尔夫特理工大学,欧洲麻省) 研究内容涉及镜头检测,视频语义内容分析等。 Ngo Chong-wah(香港城市大学):多媒体数据挖掘, 视频内容挖掘。
>> 0 >> 1 >> 2 >> 3 >> 4 >>
代表论文
• 电影类视频代表文章:
1.A Graph Theory for scene detection in produced video-sigir03->Zeeshan 2. On Clustering and Retrieval of Video Shots through Temporal Slices Analysis .C.W.Ngo.TMM02 3.Automated high-level movie segmentation for advanced video-retrieval systems.Hanjalic.TCSVT99 4.Scene detection in Hollywood movies and TV shows.—CVPR 2003
>>
0
>>
1
>>
2
>>
3
>>
4
>>
1.4 难点与热点
视频语义理解标准的统一 渐变镜头的检测: 现有方法不能识别更多的复杂的渐变镜头。
低层特征与高层语义之间的鸿沟: 底层特征相似距离小并不一定表示镜头本身的内容相似.所 以基于语义相似度量是下一步研究重点. 视频内容摘要:关键桢提取算法 应用:视频内容检索,视频视频,摘要点播
0 >> 1 >> 2 >> 3 >> 4 >>
•
>>
研究现状
• 二:利用图像中层语义建模 构建中间层主题—通过检测选取图像中包含 的语义对象/兴趣区域块来帮助描述图像场景。 1.通过图像分割自动或手动标记出分割区域的类 别 2.对每个区域/对象类别构建训练样本 3.使用机器学习方法实现对对象的分类。
>>
0
>>
1
>>
2
>>
3
>>
4
>>
研究方法
• 1.图像场景分类分为两个步骤: 一:从图像中获得表现图像场景的图像特 征; 二:利用获得的特征设计语义分类器。 根据是否建立起图像低层特征与高层语义 之间的对应关系,目前的图像场景分类方 法又分为两种:
>> 0 >> 1 >> 2 >> 3 >> 4 >>
• 刊物
– IEEE Trans. Circuits and Systems for Video Technology – IEEE Trans. on Multimedia – IEEE Trans. Image Processing – TRECVID Workshop – Computer Vision and Image Understanding
>>
0
>>
1
>>
2
>>
3
>>
4
>>
研究方法现状
目前比较有名的方法有 Princeton的B.L.Yeo和M.M.Young提出时 间约束的聚类方法对镜头代表帧聚类,并 根据聚类结果的时间特性探测对话、动作 和一般故事单元。 该方法存在的问题是固定的时间约束带 来人为的误差,另外聚类时不能自动确定 合适的阈值。(层次聚类)
>> 0 >> 1 >> 2 >> 3 >> 4 >>
1.2 视频结构化处理
镜头分割 关键桢提取
镜头聚类
视频重构
场景
>>
0
>>
1
>>
2
>>
3
>>
4
>>
镜头分割
一 :突变 表现为一个镜头瞬间直接切换到另 一个镜头.
比较成熟的方法方法:基于像素域的颜色 柱状图法,DCT域的DC系数法。 突变检测比较容易,检测方法比较成熟。
>>
0
>>
1
>>
2
>>
3
>>
4
>>
视频场景的定义
• 场景概念不统一 • 是指语义上相关时间上相近的一组镜头集合。 • 韦伯字典底层上描述两类 • 是视频所蕴含的高层抽象概念和语义的表达,相对 于帧,镜头等低层内容。表达了一个完整的符合 人们思维的语义单元。比如《美丽心灵》Nash在 酒吧里发生的一系列事件;奥巴马出访中国 (可能 包括机场迎接,人民大会堂接见,参加晚宴等).
研究现状
• 一:利用图像低层特征建模 该方法主要通过 1.对图像的低层全局或区域的颜色纹理 形状等特征的提取; 2.结合有监督学习方法如SVM实现对某 些类别的场景的分类。(如户内/户外,城 市/乡村)。
>> 0 >> 1 >> 2 >> 3 >> 4 >>
•
此类方法已经在图像和视频检索领域研 究了多年.该方法直接根据图像的低层特征 区分图像,而不用识别图像中的目标,适合差 别明显的场景分类。 对于复杂的图像场景分类效果差,推广性 差,且不能克服低层特征与高层语义之间的 鸿沟。
该方法代表人物有Fan Jianping和Luo Jiebo,Feifei Li。
>> 0 >> 1 >> 2 >> 3 >> 4 >>
• 代表文章:A bayesian hierarchical model for learning natural scene categories.(CVPR05) • 利用图像的中层语义建模是目前图像场景分类的 研究热点和主流。 • 它可以有效弥补复杂场景和高层语义之间的鸿沟
3
>>
4
>>
2. 分类依据 在人们对图像理解的众多语义内容中(5要素) 图像的场景包含了人们对一副图像的总体认识 而且提供了图像中对象出现的上下文环境,为进 一步识别出图像中的对象提供了基础。
>>
0
>>
1
>>
2
>>
3
>>
4
>>
图像场景定义
>>
0
>>
1
>>
2
>>
3
>>
4
>>
图像场景
所谓图像场景,我们理解为图像环境属性.目前研究 针对clean enviromental scene。 场景语义类别的定义常常是根据具体需要预先设 定的. 如图像数据库中大量图像粗分为室外/室内,城 市/乡村,海洋,森林,海岸,草原,河流,天空等等