当前位置：文档之家› 图像场景分类与视频场景聚类研究综述

图像场景分类与视频场景聚类研究综述

>> 0 >> 1 >> 2 >> 3 >> 4 >>
场景边界检测
结构特征明显的视频：新闻,体育视频,访谈等一:基于规则的方法. 借助相关的领域知识或结构知识以及音视频文本信息获得场景或故事单元，比如新闻节目的每一个新闻条目就是一个故事单元，在内容上描述相对独立的事件；但是该方法推广性能比较差；二:结合规则的基于多特征融合的统计方法。
• 3.解决办法视频的结构化分析为了在场景层次上对视频浏览，首先要把视频分割为镜头,并用关键桢表示镜头,然后在镜头的基础上将相似的镜头聚类构成场景,最后提取基于场景的关键帧，即可得到浏览用的视频帧。（一个视频示例）
>>
0
>>
1
>>
2
>>
3
>>
4
>>
1.1 视频的结构化分析
• 图
视频 Video
研究现状
场景是对视频高层语义的抽象，因此场景的形成需要对视频更多的语义理解。目前使用镜头聚类的方法是根据一些低层特征得到的,但是低层特征相似距离小并不一定表示镜头本身的内容相似,目前自动完成精确场景抽象仍具有相当的难度。目前已有算法只能对某类特定场景提取效果较好，距离达到实际应用的要求还远得很
>>
0
>>
1
>>
2
>>
3
>>
4
>>
主要研究者
• • • • A.Oliva&A.Torralba. (MIT) CSAI Laboratory(计算机科学与人工智能) Interest：scene and object recognition Publication:
Dense scene alignment using SIFT Flow for object recognition (CVPR09) Recognizing indoor scenes (CVPR09) LabelMe video: building a video database with human annotations (CVPR09) SIFT flow: dense correspondence across different scenes (Project ,ECCV08) Small codes and large databases for recognition (CVPR09)
Hanjalic(TU Delft-代尔夫特理工大学，欧洲麻省）研究内容涉及镜头检测，视频语义内容分析等。 Ngo Chong-wah(香港城市大学):多媒体数据挖掘，视频内容挖掘。
>> 0 >> 1 >> 2 >> 3 >> 4 >>
代表论文
• 电影类视频代表文章:
1.A Graph Theory for scene detection in produced video-sigir03->Zeeshan 2. On Clustering and Retrieval of Video Shots through Temporal Slices Analysis .C.W.Ngo.TMM02 3.Automated high-level movie segmentation for advanced video-retrieval systems.Hanjalic.TCSVT99 4.Scene detection in Hollywood movies and TV shows.—CVPR 2003
>>
0
>>
1
>>
2
>>
3
>>
4
>>
1.4 难点与热点
视频语义理解标准的统一渐变镜头的检测: 现有方法不能识别更多的复杂的渐变镜头。
低层特征与高层语义之间的鸿沟：底层特征相似距离小并不一定表示镜头本身的内容相似.所以基于语义相似度量是下一步研究重点. 视频内容摘要：关键桢提取算法应用：视频内容检索,视频视频,摘要点播
0 >> 1 >> 2 >> 3 >> 4 >>
•
>>
研究现状
• 二：利用图像中层语义建模构建中间层主题—通过检测选取图像中包含的语义对象/兴趣区域块来帮助描述图像场景。 1.通过图像分割自动或手动标记出分割区域的类别 2.对每个区域/对象类别构建训练样本 3.使用机器学习方法实现对对象的分类。
>>
0
>>
1
>>
2
>>
3
>>
4
>>
研究方法
• 1.图像场景分类分为两个步骤：一：从图像中获得表现图像场景的图像特征；二：利用获得的特征设计语义分类器。根据是否建立起图像低层特征与高层语义之间的对应关系，目前的图像场景分类方法又分为两种：
>> 0 >> 1 >> 2 >> 3 >> 4 >>
• 刊物
– IEEE Trans. Circuits and Systems for Video Technology – IEEE Trans. on Multimedia – IEEE Trans. Image Processing – TRECVID Workshop – Computer Vision and Image Understanding
>>
0
>>
1
>>
2
>>
3
>>
4
>>
研究方法现状
目前比较有名的方法有 Princeton的B.L.Yeo和M.M.Young提出时间约束的聚类方法对镜头代表帧聚类，并根据聚类结果的时间特性探测对话、动作和一般故事单元。该方法存在的问题是固定的时间约束带来人为的误差，另外聚类时不能自动确定合适的阈值。(层次聚类)
>> 0 >> 1 >> 2 >> 3 >> 4 >>
1.2 视频结构化处理
镜头分割关键桢提取
镜头聚类
视频重构
场景
>>
0
>>
1
>>
2
>>
3
>>
4
>>
镜头分割
一 :突变表现为一个镜头瞬间直接切换到另一个镜头.
比较成熟的方法方法：基于像素域的颜色柱状图法,DCT域的DC系数法。突变检测比较容易，检测方法比较成熟。
>>
0
>>
1
>>
2
>>
3
>>
4
>>
视频场景的定义
• 场景概念不统一 • 是指语义上相关时间上相近的一组镜头集合。 • 韦伯字典底层上描述两类 • 是视频所蕴含的高层抽象概念和语义的表达,相对于帧，镜头等低层内容。表达了一个完整的符合人们思维的语义单元。比如《美丽心灵》Nash在酒吧里发生的一系列事件；奥巴马出访中国 (可能包括机场迎接，人民大会堂接见，参加晚宴等).
研究现状
• 一：利用图像低层特征建模该方法主要通过 1.对图像的低层全局或区域的颜色纹理形状等特征的提取; 2.结合有监督学习方法如SVM实现对某些类别的场景的分类。（如户内/户外，城市/乡村）。
>> 0 >> 1 >> 2 >> 3 >> 4 >>
•
此类方法已经在图像和视频检索领域研究了多年.该方法直接根据图像的低层特征区分图像,而不用识别图像中的目标,适合差别明显的场景分类。对于复杂的图像场景分类效果差,推广性差,且不能克服低层特征与高层语义之间的鸿沟。
该方法代表人物有Fan Jianping和Luo Jiebo,Feifei Li。
>> 0 >> 1 >> 2 >> 3 >> 4 >>
• 代表文章：A bayesian hierarchical model for learning natural scene categories.(CVPR05) • 利用图像的中层语义建模是目前图像场景分类的研究热点和主流。 • 它可以有效弥补复杂场景和高层语义之间的鸿沟
3
>>
4
>>
2. 分类依据在人们对图像理解的众多语义内容中(5要素) 图像的场景包含了人们对一副图像的总体认识而且提供了图像中对象出现的上下文环境，为进一步识别出图像中的对象提供了基础。
>>
0
>>
1
>>
2
>>
3
>>
4
>>
图像场景定义
>>
0
>>
1
>>
2
>>
3
>>
4
>>
图像场景
所谓图像场景,我们理解为图像环境属性.目前研究针对clean enviromental scene。场景语义类别的定义常常是根据具体需要预先设定的. 如图像数据库中大量图像粗分为室外/室内,城市/乡村,海洋,森林,海岸,草原,河流,天空等等

e商务文档

图像场景分类与视频场景聚类研究综述

相关文档推荐：