视觉跟踪实验调查内容提要在过去20年间的文献中,有各种各样的追踪器被提出,其中成败各半。
在现实场景中,对象跟踪是个难题,因此,它仍然是计算机视觉中最活跃的研究领域。
好的跟踪器应该在大量涉及照明变化、遮挡、混乱、相机运动、低对比度、高光和至少六个其他方面的视频中执行良好。
然而,这些被提出的追踪器的性能,通常是通过不到10个视频或专用数据集来评估的,在本文中,我们的目的是针对包含了上文各个方面的315个视频碎片,用实验方法系统地评估追踪器性能。
我们选择了一组19个包括在文献中经常被引用的各种算法的追踪器,用2010年和2011年出现的代码公开的追踪器作补充。
我们证明了可以通过生存曲线、卡普兰Meier统计和Grubbs测试客观地评价追踪器。
我们发现,在评估实践中,F-score和对象跟踪精确度得分是一样有效的。
这些多种情况下的分析对追踪器的优点与缺点提供了客观的见解。
【关键词】对象跟踪、跟踪评估、跟踪数据集,摄像头监控,视频理解, 计算机视觉,图像处理。
一.介绍视觉跟踪是个难题,因为需要在一种算法中同时考虑不同且多变的各种情况。
举个例子,有的追踪器可能善于处理光照变化,但在处理由于对象的观点变化而导致的对象的外观变化时有困难;有的追踪器可能通过预判移动来估计速度,但在追踪弹性物体时有很大困难;有的追踪器能对外观作出详细的假定,却可能在一个关节式物体上失败。
考虑到各种各样的跟踪情况和跟踪方法,评价视频序列的数量通常是有限的,这一点让人意外。
在2011年出现在TPAMI或CVPR上的关于跟踪的文章中,不同的视频数量只有5到10个。
视频长度可能长达1到15分钟,但在5到10个视频中,很少有以上条件能得到充分测试的。
考虑到对计算机视觉进行追踪的重要性,用于追踪的视频数量如此之少就显得更让人惊讶。
在几乎每个视频分析任务中,跟踪都会发挥作用。
跟踪确实已经发展得令人印象深刻,甚至令人惊异、独特的结果,就像对尘土中的摩托车或汽车追逐的跟踪。
但是只要这些关于跟踪的文章依旧用有限数量的序列来检测他们方法的正确性,很多情况下就很难得出关于那些方法的鲁棒性的什么结论。
我们觉得是时候进行一次针对各种条件的实验调查了。
调查的目的是评估一个视频中的目标跟踪的艺术状态,着重考察跟踪算法的准确性和鲁棒性。
由于在这些方法之间没有统一的概念,我们试图从另一头来描述艺术状态:数据。
我们设计了一组尽可能多样化的现实数据集,并且记录了所有被选用的追踪器的表现。
我们想根据跟踪方法的实验表现来将它们分组。
同时,我们也要评估跟踪绩效的表现度和相互依赖性。
我们在ALOV把315个视频碎片聚集起来,每个视频集中在一个情境,以此来评估跟踪器的鲁棒性。
为了包含动态情境的各种情况,我们选择了较短但最常出现的视频,平均长度9.2s。
我们还补充了10个稍长的视频,每个在1到2分钟之间。
对跟踪器来说,重要的短序列可能比长序列更难,因为它必须快速适应艰难的情况。
当前的数据集看上去是从对所有跟踪器都简单到对所有跟踪器都困难变化的。
本次调查中的跟踪器涵盖了一组不同的方法。
条件是已经得到了代码的使用权。
这19个不同的跟踪器中,有一半是1999到2006年的,多种多样且常被引用,另一半则出现在近几年的重要学术会议上。
对所有跟踪器来说,第一帧都是同一个,从第一帧给定的边界框开始,评估结果记录了跟踪器能够何种程度地通过比较计算的边界框和数据集中每5帧注解一次的地面实际边界框来跟踪目标。
第二个目标是,单个跟踪目标的评估指标通过实验来评估和比对。
因为视频序列中包含了各种情况,而且又有各种跟踪器,我们建议对跟踪器的表现进行客观的评价。
我们通过客观测试来评估跟踪器表现,以避免当前的跟踪器文章中常用的有限数量测试序列的主观评价。
在整体性能的层次上,这是通过用相关的Kaplan Meier统计数据绘制存活曲线来实现的。
为了给每个视频单独评分,我们用Grubbs异常值测试来相对比较跟踪器。
在记录下的情况里面,我们把大量的视频分成类似的方面,然后通过关联分析来评估。
在此次调查中,我们重点放在了在初始帧中提供了边界框的在线跟踪器的层次上。
我们不考虑提前训练过的目标模型已知的跟踪器。
这些方法可能使用活动模型或者趋向于增强复杂性以捕捉对象的连续形变的主动表现模型。
因此,这些方法需要注意漂移。
预先训练跟踪是个不同的问题,因为跟踪表现不仅取决于视频的画面,还取决于一个我们在此尽力避免的问——训练数据。
我们也不考虑在视频画面中允许路径和扫描方向的整体最佳化的离线跟踪器,当离线跟踪器与医学或其他领域相关时,我们的重点实际上是在线跟踪器的更大的应用领域。
对前后向扫描来说,评估方法将很大程度地和计划中的保持一样。
调查的目的是评估单一对象追踪器的准确性和鲁棒性,这与跟踪多个对象形成对照,这些多个不同对象间需要建立数据关联,以确保单个跟踪器不会混乱。
数据关联可以表现为二分图匹配的逐个画面的局部最优化,也可以表现为通过最小成本流程或GMCP实现的k-partite 图的整体最优化。
多对象的团体需要不同方面的评估,而且,许多多对象跟踪器假设所有画面的对象检测都是已执行的。
在线跟踪是个难题,因为需要视频序列中的所有信息,特别是初始画面里面的。
我们已经忽略了专门的基于轮廓的跟踪器层次。
尽管基于轮廓的跟踪器提供了更多细节模型和对象由于被跟踪而产生的变形,但还是在轮廓的初始化、咬合以及突然的对象移动的鲁棒性等方面有很大困难。
轮廓变形实现了,但一般来说,突然移动依然是个明显问题。
在一般情况下,获得并维持轮廓是个艰难的问题,使得基于轮廓的跟踪现在适合专门的应用,比如面部或嘴唇跟踪。
这项工作的主要贡献是对在线跟踪器的系统分析和实验评估。
我们证明了跟踪器可以通过统计学检验来客观评估,只要有充分多的跟踪器和充分多的数据被使用。
在我们的评估中有个重要发现,那就是表现最佳的跟踪器并没有享有优先的方法。
不管是现代的还是成熟的,也不管是基于目标匹配还是区分前景背景,也不管他们的更新机制是什么,他们总是表现良好。
由于最好的跟踪器距离理想的结合还很遥远,我们提供了一个在各种实际情况出了问题的对象分析,它的总数说明了跟踪器的优点和不足。
二、相关工作考虑到做出关于被赋予了一系列图像的对象的移动的推断的任务,跟踪是最有挑战性的计算机视觉问题之一。
在这篇文章中,我们给自己限定了一个更简单的、易于客观评价的定义:跟踪就是分析视频序列,目的是在开始于初始画面中给定边界框的一系列画面中建立目标位臵。
A.跟踪调查文章在文献中,通常结合其预期的应用领域,人们提出了很多的跟踪器。
目标跟踪的一个简单应用是监控和安全控制,起初提供雷达和位臵传感器系统,然后提供视频监控系统。
这些系统建立在几种典型模式上,即对象分割(往往是通过背景差分)、外观和运动模型的定义、预测和概率推理。
举个例子,Avss 多个相机的人跟踪挑战评价概述提供了一些AVSS的跟踪算法实验评估,以及关于高级视频和基于信号的监控、多人监控的数据集的会议。
这些评论的焦点依然很狭窄,就像在关于小组跟踪技术应用于体育的调查中只讨论跟踪具体目标,如运动员。
基于视频的通道估计和驾驶员辅助设备:调查、系统、评估的调查正在驾驶员辅助设备的跟踪路线上。
其他的调查则忙于很适合基于卡尔曼滤波器的跟踪的机器人应用。
但还是有另外的调查,致力于单类型的目标,比如人类。
其他的跟踪方法是为移动传感器设计的,比如航海。
最近,一项调查提交了有线传感器网络,专注于作出物体位臵的简单估计的方法的能力。
关于调查应用独立跟踪器的表现的回顾很少存在。
2006年Yilmaz等人的工作依旧为回顾文献、描述跟踪的方法论、特点和一般用途的数据关联提供了一个良好的参照标准。
以上提到的调查和对照论文在跟踪器的数量、视野上是有限的,或者限制为受试验的跟踪器的情况。
就我们所知,在目前的文献中还没有实验调查和跟踪算法的系统评估能做到。
B.跟踪器评估的数据在他们的实验评估中大多数的文章只用了有限数量的视频。
比如说,使用了目标分类的跟踪算法的表现评估,只用了6个视频。
还有,在任意物体的自适应实时视频跟踪测试中经常用到的BoBOT数据集,是由10个不同的视频序列组成的。
在著名的CAVIAR数据集中,发现了一个大得多的集合,起初是为了用少数的又长又难的视频来评估人体跟踪和检测算法的。
这个数据集包括人的行走、会面、购物、战斗、昏倒以及早公共场合留下包裹。
然而,它仅限于一个应用。
i-LIDS 多相机跟踪情境是在一个繁忙的机场大厅捕获的。
它包含了119个人,以及用多个互不重叠的相机捕捉到的总共476个镜头,平均每人4个镜头,并且有很大的光照变化和遮挡。
这个数据集限制到仅仅一个应用,因此并不适合这篇文章。
最近的3DPes人类重定义数据集包含了在很长的视频序列中的8个不同相机记录的超过200人行走的视频,而常用的PETS-series包含了许多按问题陈述和监视应用分开的视频。
对通用的跟踪来说,有时会用到大的视频基准,比如TRECVid视频数据集。
根据即时学术区分外观模型,多目标跟踪的选择仅限于28个不同视频。
许多文章用基准数据集来将新方法和文献中的作比较。
跟踪器的常规实验评估最近已经完成了。
B. Karasulu and S. Korukoglu的工作提出了一个有趣的评估和比较人体跟踪器的工具。
在这篇文章中我们用超过300个视频序列建立了一个广泛的ALOV++数据集,旨在包含尽可能多样的情况。
初步讨论得出,数据集中有视觉跟踪中的13个难点。
C .跟踪评估方法许多评估跟踪表现的方法已被提出,考虑到目标的存在和位臵,和地面实况的比较就显得比较典型。
这需要大量的注释,结果是到目前为止地面实况视频的数量常被限制。
Erdem 等人2004年提出了不靠地面实况而是结果的外形和色彩变化的性能测量。
当且仅当跟踪结果处于可靠的分割时,这个提法有效。
但经常不是这么回事(而且有人可能想知道它是否总是必要的)。
其他不借助地面实况的评估的建议是基于比较对象的起止位臵的。
这个方法仅仅评估跟踪的一个方面。
在文章Filling the gap in quality assessment of video object tracking 中提出了一个混合方法。
然而,这篇文章仅用了3个视频序列来执行评估,其中一个还是合成的。
在Adaptive on-line performance evaluation of video tracker s 中,一个完整的在线预测跟踪器精确度的方法是,用小而多样化的目前流行视频的数据集来评价单个跟踪器。
在Adaptive appearance modeling for video tracking: survey and evaluation 中,还分析了一个类似的方法,用11个跟踪器,但再次用非常少的视频且专门用于多人跟踪。