题目:注意力模型的当前发展水平作者:Ali Borji, and Laurent Itti摘要:视觉注意力的建模,特别是刺激驱动的,基于显著性的注意力,在过去25年内已经是一个非常活跃的研究领域。
现在有很多不同的模型,除了给其他领域带来理论贡献以外,这些模型已经在计算机视觉,移动机器人,和认知系统展示出成功的应用。
这里我们从计算角度综述应用在这些模型的基本概念。
我们提出了对大概65个模型的分类,提供了一个方法、性能和缺点的关键的比较。
特别是,提出了从行为研究和计算研究得出的13个标准,来量化笔记注意力模型。
并且,我们解决了一些具有挑战的模型问题,包括计算模型的生理解释,与眼动数据库的关系,自上而下和自下而上的分离,以及构建有意义的性能指标。
最后,我们突出注意力模型的今后研究方向,为未来提出见解。
1,介绍每秒钟有大量的视觉信息进入人们的眼睛[1][2]。
如果没有一个智慧的机制来滤除视觉数的中的错误的数据,实时处理这些数据将是一个非常恐怖的事情。
高层次的认知和复杂处理,比如物体认知或者场景理解,都依赖这些经过这种方式【注:一个智慧的机制来滤除视觉数的中的错误的数据】转换过的易处理的数据。
本文将讨论的这个机制就是视觉注意力,他的核心在于选择机制的思想以及相关的概念。
对人类来说,注意力通过已经进化为高分辨率的中央凹的视网膜【注:中央凹(central fovea):是眼球后极视网膜上一个浅黄色的区域,称为黄斑。
其中央有一椭圆形小凹,称为中央凹】和一个底分辨率的周围区域实现的。
尽管视觉注意力将这些解剖学组织指向场景中的重要部分来采集更具体的信息,(视觉注意力模型的)主要问题是基于这个指向的计算机制。
近年来,科学研究的很多方面已经旨在回答这个问题。
心理学家研究了视觉注意力的相关行为,比如变化盲点[3][4]【注:变化盲点Change blindness 是一个心理学现象,当刺激发生变化时,人们往往无法注意到】,无注意力盲点[5]【注:无注意力盲点inattentional blindness是我们无法注意到一些显而易见的激励】和注意瞬脱[6]【注:注意瞬脱attenional blink是指在一个连续的注视过程中,我们会短时间内无法注意到一些显著的物体或者其他东西】。
神经生理学家证明了神经元是如何适应自己来更好的感知感兴趣的物体[27][28]。
计算神经科学家已经构建了现实的神经网络模型来模拟和解释注意力行为(比如[29][30])。
受这些研究的鼓励,机器人学家和计算机视觉科学家已经试图解决计算复杂度的内在问题来构建能够实时工作的系统(比如[14][15])。
尽管现在在以上提及的研究领域已经有很多模型,这里我们仅讨论能够计算图像或者视频的显著图的模型(见下节的定义)。
对于计算视觉注意力的计算模型的一般综合,包括偏向竞争[10],选择调节[15],注意力模型的规范化[181],和其他模型,参考[8]。
从心理学、神经生理学以及计算角度出发的注意力模型的综述,参考[9][77][10][12][202][204][224]。
图1显示了注意力研究的分类,并突出了我们的综述范围。
1.1 定义尽管术语attention,saliency和gaze经常被相互替换使用,但是他们之间有更细微的描述他们的定义。
注意力attention是一个普遍概念,覆盖了影响选择机制的各个方面,无论他们是场景驱动的自下而上的机制或者是预期驱动的自上而下机制。
显著性saliency直觉上刻画了场景的一些部分,可能是物体或者区域,这些部分似乎相对他们的临近区域突出。
术语“salient”通常在自下而上的计算模型[18][14]中提及到。
Gaze,一个眼睛和脑的协调运动,通常被用作注意力在自然行为中的代名词。
(见[99])。
比如,一个人或者一个机器人必须和周围的物体进行交互,在场景中移动是控制注意点来执行任务。
从这点讲,注意点控制同时集视觉,行为和注意力来执行感觉运动协调,这是某些特定行为(比如到达reaching和理解grasping)所必须的。
1.2 起源很多注意模型的基础能够追溯到Treisman&Gelade's[81],他们提出的“特征整合理论”陈述了那些视觉特征是重要的以及他们如何组合来在弹出式的和连续的搜寻任务中引导人们的注意力。
Koch and Ullman[18] 提出了一个前馈模型来组合这些特征,并引入了saliency map的概念,saliency map 是表示场景位置突出性的地形图。
他们同时引入了一个winner-take-all神经网络,这个网络选择最显著的位置,利用返回抑制机制使注意力焦点移向下一个最显著的位置。
一些系统随即创建出来,利用相关模型来处理数字图像[15][16][17]。
Koch&Ullman模型的第一个完整的实现以及验证由Itti等人[14]提出(见图2),并应用于人造场景和自然场景。
从此以后,这个领域受到持续的关注。
基于不同对注意力模型的假设的各种各样的方法涌现出来,并在不同的数据库上进行验证。
在接下来的章节中,我们提出一个统一的概念框架,在这个框架下我们将讨论每个模型相比其他模型的优点和缺点。
我们将给作者深入的分析关于注意力模型的当前技术的发展,确定当前依旧面临的问题。
对注意力建模的主要关注点在于如何,何时以及为什么我们选择行为相关的图像区域。
由于这些原因,提出了一些定义和计算视角。
一个通用的方法是从前期人类视觉系统(early human visual system)的解剖学和功能性来获得灵感(比如[14][15][16][191])。
另外,一些研究假设视觉注意力服从那些函数,并将它形成一个计算框架。
比如,大家一致认为视觉注意力能吸引更多的信息[144],更多的意想不到的场景区域[145],或者关于一个任务的最大化回报[109]。
1.3 经验基础注意力模型通常通过观测者的眼球运动来验证。
眼球运动传达了关于认知过程的重要信息,比如阅读、视觉搜索和场景感知。
因此,他们通常被看做是注意力转移的表达方式。
比如说,在场景感知和视觉搜索中,当激励比较混乱时,注意点会变得更长,同时扫描线变得更短[19]。
任务的难度(比如说全面阅读对主旨阅读,或者在场景中寻找人对用于记忆力测试的图像浏览)明显影响着眼球运动行为[19]。
尽管注意力模型和眼球运动预测模型经常用眼球运动数据进行验证,但是在范围、方法、激励以及细节的层次上存在着细微的差别。
眼球运动预测模型(扫描规划)试图理解注意力的数学支撑和理论支撑。
一些实例包括搜索过程(比如优化搜索理论[20],信息最大化理论[21],Mr.Chips: 一个理想观测者的阅读模型[21],EMMA(眼球运动和注意力运动)模型[139],控制眼球运动的HMM模型[26]和约束的随即游动模型[175])。
为了这个目的,他们通常使用简单可控制的激励,同时另一方面,注意力模型利用启发的、认知的和神经特征的组合,以及机器学习和计算机视觉的一些工具,来解释在简单和复杂场景的眼球运动。
注意力模型同时关注实际实用性。
对于所有的眼球运动模型的综述超出了本文的范围。
感兴趣的读者参考关于眼球运动的研究[22][23][127]和眼球跟踪应用的宽度优先的调查[25]。
注意到眼球运动并不总是表示出真实的事实,而且存在着其他度量标准来衡量模型。
比如,正确报告图中一次变化的准确性(也就是search-blindness[5]),或者预测能够被记住的那些视觉吸引东西,这些能显示出单独分析眼球运动所或略的注意力的重要方面。
很多视觉搜索的注意力模型用精确估计反应时间(RT)(比如,RT/setsize slopes in pop-out and conjunction search tasks[224][191])。
1.4 应用本文中,我们将关注描述模型本身。
但依然有很多关于今年来提出的模型的技术应用,并对注意力模型的关注度会进一步的增加。
我们对模型的应用分成三个类别:视觉和图形,机器人和图3所示的其他领域。
1.5本文的申明和组织注意力很难正式定义成一个被广泛接受的方式。
然而,从计算角度来看,很多注意力模型(至少那些在自由注视的眼球运动的前几秒上测试的模型)能被统一到以下的普遍的问题称述中。
假设K 个观察员看了N 副图,令*是眼睛注视点以及他们对应的时间*。
对于第i 副图的k 个观察员的注视点的个数用*表示。
注意力模型的目的是找到一个函数(stimuli-saliency map )*,这个函数最小化眼睛注视点预测的误差,也就是*。
这里一个重要的点是以上的定义更好的符合自下而上显式注意力模型,也许并不总是覆盖视觉注意力的其他方面。
(比如显式注意力或者top-down 因素),这些不能用眼球运动来解释。
这里我们对主要的应用于任意图像的注意力模型进行系统的综述。
第二章将介绍分类这些模型的几个因素。
在第三章,我们根据这些因素总结和分类视觉模型。
第四章讨论这些模型的局限性和所遇到的问题。
第五章对全文进行总结。
2 分类标准我们从引入13个标准f1...f13开始,这些标准将用来对注意力模型进行分类。
这些标准都源于注意力在行为和计算方面的研究。
一些标准描述了模型(f1,f2,f3),其他的(f4...f7,f12,f13)并不直接相关,但是他们对于觉得这些模型的实用性非常重要。
2.1 Bottom-up VS Top-down模型模型之间一个主要的差别是他们是否依赖bottom-up因素(f1),top-down因素(f2)或者是二者的组合。
Bottom-up因素主要基于视觉场景的特性(激励驱动)[75],而top-down 因素(任务驱动)由认知现象如知识、期望、奖励和当前任务决定的。
由bottom-up方式吸引我们注意力的感兴趣区域必须充分地不同于与其周围特征。
这种注意力机制同样叫做外在的,自动的,灵活的或者周边的因素[78]。
Bottom-up注意力是快速的,无意识的,并最可能是前馈的。
一个典型的bottom-up注意力的例子是看一副在有很多条垂直条纹中只有一条水平条纹的场景图中,注意力马上就会被吸引到水平条纹上[81]。
尽管很多模型属于这一类型,他们仅仅解释了眼球运动的一小部分,因为大多数注视点是由任务驱动的[177]。
另一方面,top-down注意力比较慢,任务驱动,有意识的和闭合回路的[77]。
top-down注意力最著名的例子是来源于1967年的Yarbus[79],他展示了依靠当前任务的眼球运动的如下实验:测试者要求在不同的条件(问题)下看同一场景(在有一家人的房屋中,一个不速之客进入房间),这些问题包括:“估计这个家庭的物质环境”,“人们的年龄是多少”,或者简单的仔细观察场景。