当前位置:文档之家› 人脸识别的认知思考(自然科学类)

人脸识别的认知思考(自然科学类)

人脸识别的认知思考胡伟平1,2, 邓辉文 1(1.西南大学逻辑与智能研究中心,重庆400715; 2.西南大学育才学院,重庆401524)摘要:本文首先对人脸识别和人脸认知这两个领域的研究现状进行了简单的介绍,之后针对如何在人脸识别中应用人脸认知中的结论给出了两点思考,最后结合学界关于机器智能的争论重点讨论了人脸识别算法的研究方向问题。

关键字:人脸识别人脸认知机器智能On Face Cognition and Face RecognitionHu Weiping1,2 Deng Huiwen1(1. Institute of Logic and Intelligence, Southwest University, Chongqing 400715;2. Southwest University Yucai College, Chongqing 401524)Abstract: In this paper, current research on face cognition and face recognition is briefly summarized. firstly. Then two thoughts on how to apply achievements in face cognition research to face recognition research is proposed. Finally, dispute on machine intelligence and the research direction of face recognition algorithm are discussed as an important aspect.Key words: face cognition, face recognition, machine intelligence一、引言人脸识别一直是生物识别领域的研究热点,在计算机、数学、电子、自动化、虚拟现实、图像处理和模式识别等学科都有广泛的研究,同时在公安刑侦、门禁系统、摄像监视系统及网络应用等方面有着十分光明的应用前景,但是同时人脸识别也被认为是生物特征识别领域甚至人工智能领域最困难的研究课题之一。

人脸识别的困难主要是由人脸本身的特征造成的,首先,人脸的结构都基本相似,个体之间的区别不大;其次,人脸的非刚性特点使得在不同表情下人脸的变化很大,另外,人脸识别还受光照条件、遮盖物、年龄等多方面因素的影响。

人脸识别最重要也是最核心的部分在于人脸特征的提取,目前人脸特征的提取主要有以作者简介:胡伟平,男,1979年5月出生,湖北省仙桃市人,讲师,西南大学逻辑与智能研究中心逻辑学专业在读博士,西南大学育才学院理工学院副院长。

下三类:基于人脸几何特征、基于人脸统计特征、基于人脸频率域特征。

基于几何特征的方法通常情况下需要进行手工标点,不符合实时识别的要求,同时使用有限的特征点来代表人脸图像,会丢失掉细节数据;基于人脸统计特征研究最为广泛,比如著名的PCA方法[1]就属于这类,但是这类方法都是基于图像整体特征,很容易受到光照、角度等的影响,同时计算量偏大;基于人脸频率域特征的研究是目前研究较为集中的领域,其中最出名的就是Gabor 小波方法,这类方法的计算量也偏大。

如何把人脸识别成功应用于生产生活取决于两点,一个是计算量的降低,满足现场检测实时性的要求,另一个是识别率的提高。

而要想达到这两点,笔者认为光从技术层面是不够的,有必要从认知科学的角度来考虑人脸识别的问题。

二、人脸认知的研究现状人脸的认知研究目前主要包括人脸认知中特征和结构信息的作用规律、跨种族效应以及儿童人脸认知发展规律等三个方面研究。

大多数理论认为人脸的信息分为结构信息和特征信息[2-6]。

结构信息指的是人脸主要器官之间的空间关系。

特征信息指的是人脸主要器官的结构和形状[7-8]。

结构信息和特征信息在人脸认知中的作用是这些理论争议的重点。

关于结构信息和特征信息的理论主要有三种:人脸整体加工的理论[9]、人脸认知的多维空间理论[10]以及人脸认知两种模式理论[11]。

目前对人脸反转效应的研究多数支持人脸认知两种模式理论,但是也有少部分支持人脸整体加工理论[12-15]。

人脸认知中的跨种族效应(cross—race effect)是指人们对本种族人脸的辨认绩效往往高于对其他种族人脸辨认的绩效。

比如Brigham在1986年的实验表明:无论黑人被试还是白人被试均表现出对本种族人脸的辨认绩效要高于对其他种族人脸的辨认[16]。

国外对跨种族效应机制的解释主要有以下观点[11]:(1)人们对本种族人脸的加工程度较深导致了跨种族效应;(2)由于人们对本种族人脸的判断标准比对其他种族的严格,从而比判断其他种族人脸的相似性程度高;(3)由于实际生活中,对本种族人脸的接触较多,从而习得了精确区别本种族人脸的各个维度,这导致对本种族人脸的辨认较为容易。

虽然上述这些观点的提出都有一定的理论和实验基础,但对人脸认知中跨种族效应的机制至今还没有确定的解释。

在许多人脸认知的研究中发现,儿童和成人对人脸的识别存在显著差异,但儿童对人脸再认的能力会随着年龄的增长而加强,其原因之一可能是儿童的人脸加工方式不同于成人。

Yin(1969),Goldstein(1975)等人发现当人脸反转呈现时,成人比儿童在辨认过程中更容易发生错误。

利用人脸结构信息和特征信息加工不同的观点,1977年Diamond和Gareey 通过实验发现:儿童在人脸加工中主要侧重特征信息,而成人则主要侧重结构信息。

三、人脸认知研究成果的应用思考人脸认知属于认知科学和认知心理学的范畴,如果能将其中的研究成果用于人脸识别,对于现有人脸识别方法的改进或者是新的人脸识别方法的设计,都是很有意义的事情。

下面提出几点如何将人脸认知的研究成果用于人脸识别的思考。

1、人脸认知中整体信息和局部信息并存,整体信息起主导。

人脸的结构信息即是整体信息,而特征信息则是局部信息,这两种信息在人脸认知中都起着十分重要的作用。

通常我们个人记忆或者识别某个人,使用的是这个人的整体形象,而不是具体的某个人脸器官,比如把我们熟知的某个亲人的照片给我们看,我们会一眼认出,但是如果仅仅把照片上的眼睛或者鼻子单独拿出来让我们辨认的话,我们通常情况下是识别不出哪是谁的眼睛或者鼻子的。

结构信息可以用于识别人的另一个有力证据就是漫画或者肖像画。

通过一幅简单勾勒出来的肖像画,我们可以识别出那是谁,肖像画与真实的图像差异很大,其中基本不存在人脸器官的局部信息,主要是人脸器官的位置关系等结构信息,由肖像画可以识别出人,这有力地说明了结构信息在识别中起到了主导作用。

现在已经有人专门针对肖像画的识别开张了相关研究工作[17][18]。

但是局部信息在人脸识别中也起到了很好的辅助作用。

生活中拥有某些特殊特征的人,比如脸上有刀疤或者痣,再或者是鹰勾鼻子的人,则很容易被人记住并再次辨认出来,这说明特征信息起到了帮助人快速检索的作用。

根据以上分析,人脸的结构信息即人脸器官的相对位置关系应该作为辨识的主要依据,而人脸的特殊特征信息则可以作为快速排除的依据。

在设计人脸识别算法的时候可以设计成两级分类器,第一级使用人脸的特殊结构信息进行快速的粗筛选,第二级使用人脸的结构信息进行进行精筛选。

2、人脸的识别有别于其他物体的识别,有专门的识别方法,而且人脸认知能力是一个逐渐学习、逐渐强化的过程。

面孔失认现象一般情况下解释为是面孔识别涉及一些其他对象识别不需要的特殊加工机制,在1997年Kanwisher、McDermott和Chun对面孔、拼凑的面孔、房子和手的大脑激活区域进行比较时,获得了非常清楚的关于面孔识别机制的证据,他们在右侧梭状回(Fusiform Gyrus)的某些部分发现了与面孔识别有关的特异性激活,而且其他研究者已重复了这一现象。

对于跨种族效应和儿童认知人脸的研究在认知科学届有不少不同的解释,但这两者其实都说明了一个问题:人脸认知的能力是一个逐渐学习、逐渐强化的过程。

对于跨种族效应的三种解释,第三种解释较为合理一些,因为每个种族的人从出生到成长,所见到的大部分是本种族的人,所以平常无意识中所做的本种族人脸的区分练习是相当多的,自然形成了一套区分的标准和方法,他对于本种族的人脸的区分显然要比非本种族的人脸的区分要容易。

而儿童的人脸识别能力的变化以及与成人识别能力的区别,正是说明了每个人的人脸识别能力是一个渐进的逐渐完善的过程。

关于跨种族效应和儿童认知人脸的问题,现在还没有给出统一的令人满意的解释,但是这一发现却可以为人脸识别方法的设计提供一些思路。

首先,人的人脸识别能力并非与生俱来,而是通过训练得来的,而且在训练中将逐渐强化,这是一个动态的学习过程。

在人脸识别算法的设计中可以采用同样的思路,使得识别算法随样本的添加而逐渐变得更“聪明”。

最初的识别器可能非常粗糙,识别率比较差,但随着样本的逐渐添加,识别率越来越高,这种识别器可以使用神经网络或者其他的一些可以自学习的算犯来实现,或者是采用遗传算法或模拟退火等方法对人脸识别器进行优化。

四、需要弄清楚的一个问题人脸认知研究的是人对于人脸的认知的问题,而人脸识别研究的是计算机识别人脸的问题,这两者有联系,但是也有区别。

在将人脸认知的结论用于人脸识别的过程中,有必要弄清楚一个问题——研究人脸识别方法的目的是什么?是设计出使得计算机可以按照人认知人脸的方式运作,最大程度上再现人认知人脸过程的算法,还是设计出使得计算机按照它自己的方式运行,对人的识别进行辅助的算法。

这个问题的不同回答将影响到人脸识别问题的研究方向。

在回答这个问题之前,先弄清楚人如何进行识别以及人的识别能力强弱的问题。

人的识别能力到底强不强?从某种意义上来说人的识别能力应该算比较强的,但是,人的识别并非仅仅依靠人脸图像,而是一个多种识别机制同时起作用的过程,比如声音、步态、衣着、发型等等,综合考虑这些因素的情况下,人可以很容易识别出某一个人。

如果仅仅靠人脸图像,人的识别能力到底有多强,这是一个未知数。

现在来回答刚才提出的问题,我们研究人脸识别方法的目的是什么?如果是第一种选择,那么设计的算法应该是尽可能与人的思维方式相接近,并且给出模糊的结论。

人的识别通常情况下是综合考虑多种情况之后,快速地给出模糊的结论,比如对于一张照片,通常情况下识别人给出的都是类似于“比较像某人”或者“不太像某人”之类的模糊的结论。

采取这种思路的话,识别算法将不再局限于人脸信息,应该综合考虑人的其他特征信息,把精力放在各种不同特征信息的融合上。

设计算法中还需要注意研究人是如何进行快速的模糊推理的。

相关主题