1.1研究背景随着人类社会的快速发展,图像识别已经迅速发展成为一项极为重要的科技手段,其研究目标是,赋予计算机类似于人类的视觉能力,使其通过二维图像认知周边环境信息,包括识别环境中三维物体的几何形状、位置和姿态等。
图像识别需综合运用计算机科学、模式识别、机器视觉及图像理解等学科知识,并随着这些学科的发展而前进。
图像识别技术己广泛应用到许多领域,例如:宇宙探测、生物医学工程、遥感技术、交通、军事及公安等。
针对不同对象和环境有不同的识别方法。
由于图像可以提供十分丰富有效的信息,为给识别带来较大方便。
因此,图像识别技术一直受到研究者重视,是模式识别领域的研究热点之一。
一般来说,图像识别技术大体经历了三个主要阶段即:文字识别、二维图像识别和处理、三维物体识别。
文字识别开始于1950年前后,首先是识别字母、数字和符号,后来发展到识别文字,从识别印刷字体到手写文字,并研制出相应的文字识别设备。
从六十年代初期开始,人们开始图像处理和识别的研究,逐步发展到识别静止图像和运动图像,最初主要利用成像技术光学技术等,后来人们结合了日新月异的计算机技术,获得巨大成功。
接下来是对三维物体识别问题的研究。
三维物体识别的任务是识别出图像中有什么类型的物体,并给出物体在图像中所反映的位置和方向,是对三维世界的感知理解。
在结合了人工智能科学、计算机科学和信息科学之后,三维物体识别成为图像识别研究的又一重要方向。
目前,出于城市规划、工业自动化、交通监控、军事侦察及医疗等各个领域的大量应用需求,三维物体识别已成为一个活跃的研究领域,有较大的实用价值和重要意义,具有广阔前景。
设计一个三维物体识别系统,理论上要求它有足够好的通用性、稳健性,且学习简单,即这个系统能够在各种条件下,无需手工干预就能识别任何物体,没有特殊或复杂的过程来获得数据库模型。
当然这个需求一般很难达到,实际都是在一定约束条件下进行方法的研究,然后尽可能减约束条件。
三维物体识别一般可分为五种主要的研究思路:1)基于模型(model-based)或几何(geometry-based)的方法;2)基于外观(appearance-based)或视图(view-based)的方法;3)基于局部特征匹配的方法;4)光学三维物体识别5)基于深度图像的三维物体识别现在主流的是前三项,1.基于模型或几何的方法如果在识别的过程中,要利用有关物体外观的先验知识,如CAD设计的模型则称为基于模型(model-based)或几何(geometry-based)的三维物体识别。
基于模型的方法,从输入图像数据中得到物体描述,并与模型描述进行匹配,以达到对物体进行识别及定位目的。
这里的物体模型一般仅描述物体的三维外形,省略颜色和纹理等其他属性,其算法流程如图1-1所示。
传感器数据获取过程,是在物理原则、集合原则基础上,从真实物体中产生模型数据。
分析建模过程,是对传感器数据进行处理,从中提取目标有关的独立应用特征。
模型库建立的基本思想是,选取物体的某些特征作为基元,在确定基元之间的相互关系后,将物体表示成一个关系属性图。
物体的模型,就是系统在识别物体前所获得的物体表示。
在模型匹配过程,系统通过从图像中抽取出的物体关系属性图,把物体描述与模型描述通过某种匹配算法进行比较、分析,最终得到与物体最相似的一种描述,从而确定物体的类型和空间位置。
基于模型的三维物体识别,需要着重解决以下4个问题:1)模型产生:主要有CAD设计法和传感器产生法;2)目标描述:有基于不变性特征法、表面模型法等;3)模型描述:一般和目标描述方法相似;4)模型匹配:可用距离法、最小二乘匹配法及树匹配等。
基于模型的方法进行三维物体识别,优点是比较直观和易于理解,但是一般所用算法的运算量都较大,且需要人工借助CAD等软件产生模型。
目前许多几何不变性的应用,仍需要利用物体的三维几何模型来求取不变量和做假设验证。
由于对复杂物体建立三维几何模型的难度和工作量非常大,在应用中还存在较多障碍,如何利用几何不变性解决复杂背景、物体间遮挡、噪声干扰等环境下的三维复杂物体识别,仍是一个困难的问题。
2. 基于视图的方法二维平面图像可通过普通CCD相机获取,在一幅二维图像中,三维物体的外观取决于其形状、反射特性、姿态和环境亮度等。
基于外观(appearance-based)或基于视图(view-based)的三维物体识别算法研究,近来成为人们的研究热点。
即使最简单的物体,其不同视点的二维视图差异往往会很大,而生物视觉系统对此表现出非常稳健的识别能力,它们的识别过程趋向于选择物体的二维视图,而不是物体的三维描述。
基于视图的方法通过视觉相似性来识别物体,识别系统设计相对简单,无需显式地计算物体三维模型[6]。
该方法一般分为两个步骤:首先,通过不同光照条件和三维物体在二维图像中呈现出的不同姿态,来自动地学习物体的表示或训练系统;然后,在一幅未知的二维图像中判断是否存在目标物。
该方法一个主要的限制条件是,需要感兴趣的物体能够与背景较好的隔离,因此对物体间的重叠较为敏感,且需要较好的图像分割。
但当物体的几何建模很困难或根本不可能得到时,则可利用基于视图的方法来识别三维物体。
该方法的关键点和难点,是在于如何准确有效地用多个视角图像来描述一个物体。
基于视图的方法,又可细分为基于图像的方法(image-based)和基于特征(feature-based)。
这一类方法并不需要精确描述物体的高度信息,试图通过物体的多视角图像,获取对物体的全方位描述并予以记录。
由于对数据来源的要求不高,在三维物体识别和图像检索系统中有广泛的应用,也是本文研究的重点之一。
基于视图的三维物体识别算法流程,如框图1-2所示3. 基于局部特征匹配的方法理论上要求识别系统具有通用性、稳健性且学习简单。
前面提到的基于模型的方法和基于视图的方法,在这些方面有所缺陷。
最近,基于局部区域匹配的算法,在物体识别领域里取得了相当好的效果。
如同基于视图的方法,该方法从物体的图像中学习并构造物体的模型,同时提取局部图像块的特征用于匹配。
该方法通过对视角改变局部准不变的过程,来检测得到视图中三维物体的局部区域,然后通过从局部测量计算得到的不变量描述的区域集合,来表示物体。
在无需人工干预的情况下,从训练视图中自动地学习构造出物体的表示。
在识别阶段,测试视图也按照同样的方式,构造物体的表示。
这样,识别问题可认为是从测试视图和数据库里的训练视图中,搜索有相似区域的几何一致性的集合。
该方法的优点是,因为视角改变引起的物体外观的形变,全局看来尽管非常复杂,但在局部的尺度上可通过简单的变化来估计;同时因为无需所有的局部特征得到匹配,这种方法在物体有重叠和复杂背景情况下都有较好的稳健性。
因为建立了区域间的相似性,物体识别也做到了局部化。
在基于局部特征匹配这一大类方法中,各种算法的区别在于,局部图像区域的选择和基于这些区域的特征计算。
这方面相关的工作主要有:Lowe提出的尺度不变特征变换(SIFT)描述子,Mikolajczyk和Schmid提出的Harris角点检测器和Hessian点检测器,Matas提出的最稳定极值区域检测器等。
一般说来,这些方法有着相同的步骤,如图1-3所示。
4. 光学三维物体识别近几年,光学数字化处理的三维物体识别技术的研究,引起了人们的重视,在不断深入。
光学模式识别是基于光学运算实现的模式识别,主要是对图形或图像类对象进行描述、分类和识别,是模式识别的一个重要分支。
光学系统对二维图像进行识别,具有速度快、准确性高、平移不变性和可并行处理等优点,广泛应用于医学诊断、面貌识别、指纹分析、军事目标的识别与跟踪、字符与文字识别等领域[。
光学三维物体识别,对于二维图像的形变、比例缩放、旋转等有相应的处理方法,可以进行较好地识别[73]。
但光学系统只能处理二维信息,不能直接进行三维物体识别,必须将三维物体的信息转换成二维信息。
目前,国内四川大学光电科学技术系的苏显渝老师领导的课题组发表了一系列光学模式识别的文章,主要采用结构光场[74]、莫尔条纹[75-76]和基于距离像位相编码[77]等。
基于结构光投影的三维物体识别方法,将物体的强度像与距离信息相结合,改变物体成像时的入射光,把传统的白光改为光栅照射,即将一正弦光场投影到物体表面。
由于受到三维物体表面高度的调制,正弦结构光场发生形变,表现为二维条纹图,在物体表面呈现出规则且带有高度信息的条纹。
由于条纹图像包含有物体的高度分布信息,因此对变形条纹图的相关识别,具有较好的识别效果。
另外,在传统的光学相关方法不易解决的、需辨识信号与参考信号仅有微小差异,且信号本身结构复杂情况下,文献[80]提出一种新的光电混合处理系统,其原理和实现均较为简单,而且对物体的结构也没有严格限制,处理具有准实时的特点。
其实验结果表明,系统对微小差异图形有较好的识别功能。
但由于对入射光有严格要求,过程复杂,一般都在计算机上进行模拟,难以在实际光路中实现。
国外有采用相移数字全息[6]和整体图像[81]进行三维物体识别的报道,但主要是进行计算机模拟,未实现实时识别,限制了在实际中的应用,5. 基于深度图像的三维物体识别在过去的三十多年里,图像识别主要是针对数字化灰度图像的识别。
最近几年,通过距离图像(或三维图像、深度图像)来识别三维目标,成为目前图像识别发展的新方向之一[15]。
距离数据可以从主动或被动传感器中获得,以数字化的形式给出,且距离数据的质量在逐渐提高。
深度图像数据中包含点的深度信息,即传感器焦平面到目标表面的距离。
因为深度信息仅依赖于物体的几何形状,与物体的亮度和反射等特性无关,不存在使用灰度图像时的阴影或表面投影问题,所以使用深度图像通过外形来识别物体的过程,一般比使用灰度图像更为容易。
一般使用激光相机来获取三维物体的深度数据,可得到精确的表面描述,但设备较为昂贵,基于深度数据的方法计算量也较大[82]。
基于灰度图像的物体识别是一个病态问题(ill-posed),因其光源参数及表面反射函数均未知。
因为知道物体的外形,基于深度图像的物体识别虽较为困难,但是一个适定问题(well-posed)。
在很多环境情况下,深度图像视觉系统性能,有可能超过灰度图像系统。
所以尽管基于深度图像的三维物体识别不是本文研究重点,但它可获得距离数据,具有普通CCD相机不具有的优势,改变了基于二维平面图像识别的思路,是国内外的研究热点,值得关注和研究。