当前位置：文档之家› 视频中移动目标检测综述

视频中移动目标检测综述

基于视频的移动目标检测论文研读报告苏航00748178智能科学系信息科学技术学院北京大学摘要基于视频的移动目标检测是一个重要且有挑战性的任务，在许多应用中都起到相当关键的作用。

本次论文研读围绕该主题展开，深入阅读了十余篇论文，在本文总结了视频中移动目标检测的一些主要方法及各自的优劣，并将几个重要的方法大致分为了两个不同的类别：基于像素的移动目标检测和基于区域的移动目标检测。

在基于像素的方法中，图像特征完全由各个像素的坐标及灰度值（或颜色值）确定，而在基于区域的方法中，各个像素属性之间的关联成为主要特征来用以提取移动目标。

另外本文还讨论了以上两类之外的一些方法。

关键词视频移动目标检测背景差分高斯混合模型直方图正文1 引言基于视频的移动目标检测在许多实际应用中都担当着核心的任务。

譬如视频监视、人机交互、视频编码等广泛的领域都需要有效地进行该工作。

帧差法（Frame Differencing）12是视频中检测移动目标最简单直观的方法，其在视频片段中固定间隔的两帧之间计算绝对差，该差值大于一定阈限的像素就认为是运动物体可能存在的区域：D t(x,y)=Abs.F t(x,y)−F t−k(x,y)/（1）这种简单的方法有时十分有效，但在更多应用环境下并不能获得期望的效果。

这主要是由于视频中各帧之间的差异并不仅仅来源于运动的物体，而同时可能来1R. Jain and H. Nagel, “On the Analysis of Accumulative Difference Pictures from Image Sequences of Real WorldS cenes”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 1, no. 2, pp. 206–214, 1979.2为了避免混淆，本文中将作为主要研读对象的文章列在报告最后的“参考文献”一栏中，而其他引用的文献则作为脚注注明。

源于很多别的因素。

例如在室外道路监视中，由于太阳位置及云雾遮挡阳光的情况不断改变，路面整体的亮度并不固定而是不断改变的，甚至有可能出现大的变化。

类似这样可能被错误识别成移动物体的因素还有很多，如移动物体产生的阴影、水面的波纹、摄像机的抖动等。

另外，在特定的应用场景下还有其他一些至关重要的问题需要考虑。

例如在道路监视中，车辆往往有复杂的遮挡现象，而且车辆的阴影很大程度加剧了这种现象的出现。

当然这些困难也并不总是存在的，有些应用中并不会出现这些问题，如室内视频监视就没有大尺度光照变化的问题；也有些应用中并不需要考虑这些问题，如传统的视频编码中阴影、水波等本身并不能忽略所以可以一并视为运动物体。

以上这些分析可以简单看出，视频中的移动目标检测是一件非常有挑战性的工作，而且不同应用环境的需求存在很大的差异。

在一个应用中性能很好的算法可能在另一个场景中完全不适用，所以很难使用单一的技术应对所有的应用环境，这也就导致相关的算法技术不断涌现。

Category Method Author and TimeSimplest Method Frame Differencing Jain and Nagel 1979Pixel-based Methods Mean-threshold Method Wren et al. 19973 Gaussians N Friedman, S Russell 1997 Gaussian Mixture Model(GMM) Stauffer and Grimson 2000 Non-parametric Model Elgammal and Davis 2000Region-based Methods LBP (texture) Heikkila, M. et al. 2006Co-occurrence matrices (texture) Luo Di, Huang Xiangnian 2008 Covariance matrices Oncel Tuzel et al. 2006 Accumulated Histogram Fatih Porikli 2005Other Methods Eigenspace decomposition Oliver et al. 2000 早期提出的移动目标检测方法大都单独地处理各个像素的灰度值或颜色而没有考虑较大尺度上的特征，故称它们为基于像素的方法。

典型的方法包括均值-阈限方法、高斯混合模型[1]、非参数模型[2]等。

由于这些方法没有充分利用局部像素之间的关系信息，很多有效的图像特征无法得到表示，从而导致移动目标检测精度及效度都受到影响。

后期大量的检测方法都不同程度地利用了局部区域层次的信息，称为基于区域的方法。

典型的基于区域的方法包括纹理方法[5][6]、直方图方法[7]等。

报告接下来的部分组织如下：第二节介绍一般问题的陈述及典型的应用，第三节与第四节分别介绍基于像素的移动目标检测方法与基于区域的移动目标检测方法，第五节进行简单的讨论与总结。

2 问题陈述及应用一般而言移动目标检测并不单独地构成应用，而是作为一个组件出现在许多实际的应用之中。

故移动目标检测的具体要求随着应用的改变而有很大的不同。

例如对足球场上球员及足球的检测与跟踪就和对视频中用户手势的跟踪有所不同，前者的关键在于如何应对复杂的光照变化有效提取运动物体，后者的难点则在于如何从整个躯体大范围的运动背景中将手势的运动识别并提取出来。

尽管不同的应用可能提出不同的技术上的要求，但是相当一部分这类问题还是可以在同一的框架下进行探讨和比较的。

以下就是本文讨论范围内一般问题的陈述(Figure1)：a.高层次的模型一般具有检测、跟踪、识别三个模块，其中识别模块并不必须；b.检测模块可细分为移动目标区域检测与移动目标分组，其中前者是这个模块能够顺利工作的保证，其目的是将各帧内移动目标所在的区域标出；c.该模型的输入为连续的视频，输出为跟踪的物体（即轨迹）或分类的物体。

Figure1 系统框架图中即为一个典型的流程图，其中省略了分类模块并把运动目标区域检测规定为背景差分方法。

该模型的典型应用场景是室内\外的视频监视分析(Figure2)，特别是交通数据的分析。

另外体育运动视频（如足球或台球）的分析也能在该模型下解决。

Figure2 移动目标检测的典型应用：视频监控本文讨论的就是这样一个系统之中移动目标检测部分内容，并且将重点放在了如何判定移动目标区域的部分。

这是这样的系统中的最初的处理，对于之后的处理能否获得有效的信息至关重要。

该内容主要涉及两个问题：如何提取运动的前景，及如何建立一个良好的背景模型。

后者一般并不是应用任务中所要求完成的，但往往是用以提取运动前景很好辅助工具，将新的一帧“减去”背景即可获得移动前景，故同时具有这两个步骤的方法也被称为“背景差分”，是移动目标检测中的一大类主流方法，本报告中涉及的大部分方法即属于这一类。

3 基于像素的移动目标检测3.1 均值-阈限方法均值-阈限(Figure3)的基本思路是计算每个像素的平均值和标准差作为它的背景模型。

Figure3 均值-阈限方法图中为某视频中单个像素在一定时间内不断更新得到的平均值和平均差值3，该像素处在天空的位置，在一段时间后有人的手挥过该区域，可以看到由于前景目标明显不如背景中的天空明亮，所以可以很容易将其分辨出来。

实际上均值-阈限方法就是赋予视频中每个像素一个统计上的背景模型，例如高斯分布模型4。

每个点需要两个参数来衡量：均值与方差。

后面将看到，许多更先进的基于像素的移动目标检测方法其实无非采用了更复杂的分布模型来描述每个像素。

3.2 阴影去除及三高斯模型简单的帧差值或均值-阈限方法在很多应用中都面临一个很严重的问题：阴影。

在某些光照条件下，移动物体产生的阴影相对背景具有非常显著的差别从而被识别成了前景，有时这些阴影比物体本身还大，并且导致原本独立的运动物体连接在一起无法分割。

一种简单的思路是放弃使用灰度值进行背景建模，而采用颜色信息从而将阴影的移动去除掉。

这类方法需要一条假设：移动目标投射到路面上的阴影主要改变了该位置的亮度而对色度没有大的影响5。

部分情况下确实可以承认该假设。

在不同的颜色模型下有不同提取亮度信息的方式。

在HSV等空间中这个任务尤为简单，因为亮度本身就是一个独立的分量，所以在该分量以外的维度上进行背景建模与差分就能消除一定的阴影。

如果在常用的RGB颜色空间中，亮度的提取就稍微复杂[3]。

Figure4 RGB空间中的亮度与色度3类似标准差的作用，但是计算更快捷。

4C.R. Wren, A. Azarbayejani, T. Darrell, and A.P. Pentland, “Pfinder: Real-Time Tracking of the Human B ody,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 19, no. 7, pp. 780-785, July 1997.5J. M. Alvarez, A. López, and R. Baldrich, "Illuminant-Invariant Model-Based Road Segmentation", IEEE Intelligent Vehicles Symposium, June 2008.将一个像素的颜色值在RGB 三维空间中表示(Figure4)，背景建模就是确定了穿过原点的一条色度直线，所有在该直线上的颜色都认为是背景色。

当前颜色相对参考颜色（背景）的亮度分量αi 由最小化下式给出：ϕ(αi )=(I i −αi E i )2 （2）αi 表示该像素当前值相对参考背景色的相对亮度。

如果其值为1则代表亮度相同，大于1代表比背景更亮，小于1代表比背景更暗。

当前颜色到色度直线的垂直距离就表示色度的偏离：CD i =‖I i −αi E i ‖ （3）利用色度与亮度的偏离值就可以将新的颜色值分为四个类别：M (i )={Forground: CD i ̂>τCD or αi ̂>ταlow ,elseBackground: αi ̂<τα1 and αi ̂>τα2, else S adow: αî<0, else Hig lig t: ot erwise （4）其中CD i ̂与αi ̂分别代表均一化之后的两个偏离分量。

这些方强烈依赖于上面提到的假设：阴影仅仅改变背景亮度而不改变色度。

e商务文档

视频中移动目标检测综述

相关文档推荐：