当前位置:文档之家› 计算机视觉技术

计算机视觉技术

2.1双目立体视觉技术
2.
双目立体视觉理论建立在对人类视觉系统研究的基础上,通过双目立体图像的处理,获取场景的三维信息,其结果表现为深度图,再经过进一步处理就可得到三维空间中的景物,实现二维图像到三维空间的重构。Marr和Poggio以及Grimson[25][26]最早提出并实现了一种基于人类视觉系统的计算视觉模型及算法。双目立体视觉系统中,获取深度信息的方法比其它方式较为直接,它是被动方式的,因而较主动方式(如程距法)适用面宽,这是它的突出特点。双目立体视觉技术的实现可分为图像获取、摄像机标定、图像预处理、图像匹配等步骤。下面依次介绍各个步骤的实现方法和技术特点[27]。
图1视觉系统的三个表象层次
在计算理论这一层次,Marr将三维重建这一过程分为三个层次。前期视觉处理阶段是由输入的二维图像获得二维要素图,包括检测灰度变化,表示和分析局部几何结构以检测照明效应等处理。中期视觉处理阶段是对二维要素图进行一系列运算得到
能反映可见表面几何特征的表象,即二维半(2.5维)图。这些运算包括由立体视觉运算物体的深度信息;根据灰度、纹理等信息恢复表面方向;由运动视觉运算获取表面形状和空间关系信息等。后期视觉处理阶段是从二维半图像获取场景物体的三维描述,识别出场景中这些物体的位置和姿态。
(2)图像识别
图像识别技术根据从图像抽取的统计特性或结构信息,把图像分成预定的类别。在计算机视觉中图像识别技术经常用于对图像中的某些部分(例如分割区域)的识别和分类。
(3)图像理解
给定一幅图像,图像理解程序不仅描述图像本身,而且描述和解释图像所代表的景物,以便对图像代表的内容作出决定。在人工智能视觉研究的初期经常使用景物分析这个术语,以强调二维图像与三维景物之间的区别。图像理解除了需要复杂的图像处理以外还需要具有关于景物成像的物理规律的知识以及与景物内容有关的知识。
2立体视觉技术
立体视觉是计算机视觉领域的一个重要课题,它的目的在于重构场景的三维几何信息。立体视觉的研究具有重要的应用价值,其应用包括移动机器人的自主导航系统,航空及遥感测量,工业自动化系统等。立体视觉的研究由如下几部分组成[24]:
(1)图像获取
用作立体视觉研究的图像的获取方法是多种多样的,在时间、视点、方向上有很大的变动范围,直接受所应用领域的影响。立体视觉的研究主要集中在三个应用领域中,即自动测绘中的航空图片的解释,自主车的导引及避障,人类立体视觉的功能模拟。不同的应用领域涉及不同类的景物,就场景特征的区别来分,可以划分成两大类,一类是含有文明特征的景物;另一类是含有自然特征的景物和表面。不同类的景物的图像处理方法大不相同。
Marr的计算视觉理论把视觉过程看作一个信息处理过程,并把这一过程分为三个层次:计算理论;算法与数据结构;硬件实现。这一理论强调计算理论层次,并根据Warrington[22]临床神经学的研究结果,阐明视觉目的是从图像中建立物体形状和位置的描述。在这一层次把视觉过程主要规定为从二维图像信息中定量恢复图像所反映的三维场景中物体的形状和空间位置,即三维重建。
在建立计算机视觉系统时需要用到上述学科中的有关技术,但计算机视觉研究的内容要比这些学科更为广泛。计算机视觉的研究与人类视觉的研究密切相关。为实现建立与人的视觉系统相类似的通用计算机视觉系统的目标需要建立人类视觉的计算理论。
八十年代初,马尔(Marr)从神经生理学、心理物理学和临床神经病理学角度对人类视觉进行了系统的理论研究,并以此为根据提出了视觉计算三层表象理论,该理论是迄今为止最为系统的视觉理论,对神经科学的发展和人工智能的研究产生了深远的影响[21]。马尔的三个表象层次如图2-1所示。
不少学科的研究目标与计算机视觉相近。这些学科包括图像处理、图像识别、景物分析、图像理解等。由于历史发展或领域本身的特点这些学科互有差别,但又有某种程度的相互重叠。为了清晰起见,把这些与计算机视觉有关的学科从研究目标和方法角度加以归纳[21]。
(1)图像处理
图像处理技术把输入图像转换成具有所希望特性的另一幅图像。例如,可通过处理使输出图像有较高的信噪比,或通过增强处理突出图像的细节,以便于操作员的检验。在计算机视觉研究中经常利用图像处理技术进行预处理和特征抽取。
[3] 晏洁.显示具有真实感的三维合成人脸图形的两种方法.计算机工程,1998,24(1):49-52.
[4]晏洁,高文.基于一般人脸模型修改的特定人脸合成技术.计算机辅助设计与图形学学报,1999,11(5):389-394.
[5]金辉,高文.人脸面部混合表情识别系统.计算机学报,2000,23(6):602-608.
参考文献
[1]Manjula Patel and Philip J. Willis. FACES: Facial Animation, Construction andEditing System.EUROGRAPH'91,p33-45.
[2] 晏洁.从一般人脸模型到特定人脸模型的修改.计算机工程与科学,1997,19(2):21-24.
(1)两步法
首先采用透视矩阵变换的方法求解线性系统的摄像机参数,再以求得的参数为初始值,考虑畸变因素,利用最优化方法求得非线性解,标定精度较高。
(2)张正友标定方法
可以通过不同位置和方向的几个平面来求解内部参数,然后再计算摄像机的外部参数的方法进行摄像机的标定。此方法计算比较直接,精度也较高。比较有代表性的双摄像机标定方法有:
我的毕业论文排版样文
1
1
计算机视觉既是工程领域也是科学领域中的一个富有挑战性的重要研究领域。计算机视觉是一门综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中,其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学、神经生理学和认知科学等[18]。
视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断和军事等领域中各种智能自主系统中不可分割的一部分。由于它的重要性,一些先进国家,例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题,即所谓的重大挑战。“计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图像信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起[19]。”作为一门学科,计算机视觉开始于60年代初,但在计算机视觉的基本研究中的许多重要进展是在80年代取得的。现在计算机视觉已成为一门不同于人工智能、图象处理、模式识别等相关领域的成熟学科[20]。
(1)网格的几何性和拓扑性应该正确,三角形不能相交;
(2)三角形网格的质量应尽可能地好,包括尽可能少的狭长三角形;
(3)三角形网格的边界应位于模型的边界;
(4)三角形网格不能与物体边界相交[30]-[32]。
对空间点集进行三角网格剖分的方法一般可以分为两种[33],一种称为映射法,此方法是将空间中的离散点集向某个平面定向投影,然后对投影后的点集进行二维平面上的三角剖分,然后在剖分结果上加入第三维信息,最终完成空间点的剖分,但是此法只适用于定向投影无重叠的曲面,而对于某些定向投影有重叠的复杂曲面,则要对整个曲面进行分片剖分处理,然后再将剖分结果合并起来[34]。而且,在平面上达到最优的三角剖分时,其所对应的空间三角剖分未必也是最优的,出现“尖”三角形的几率很大,这样对重构曲面的质量将产生影响[35]。另外一种方法是对三维空间中的点集进行直接三角剖分,由于剖分过程按照某一特定规则进行,并且考虑到空间中点的相互位置关系,因而可以达到较好的剖分效果。
近来,三角形网格由于其表示大量离散数据的高效性越来越多地应用于机器人相关领域,如可以用来定义物体形状,计算机图形学、动画、数字化表面的逼近、地形信息系统、多视图集成、CAD逆模型建立。主要是计算机视觉方面和地形信息恢复方面的研究人员采用三角形网格逼近范围数据。
计算机视觉方面的研究人员主要是利用三角形网格构造物体模型用于模式识别,他们采用无空洞和无畸变的三角形网格逼近数字化曲面,这并不需要处理范围和曲率的不连续问题,因此可以用许多小的三角形去达到所需的精度。相反地形方面的研究人员关注三角形网格的表面特征,他们应用Delaunay三角形剖分来限制三角形网格的生成,形成三角形非均匀网格(Triangulated irregular net- works),用来逼近任意区域的表面。生成的三角形网格应满足以下特征:
(1)Fusiello方法
此方法简单而且精确,且实现较为容易,仅用了22行Matlab代码。
(2)杜歆的二步旋转法
此方法不仅能够应用于双摄像机的标定,还可以应用于多摄像机系统。
2.
在采集图像时,由于两台摄像机所处的方位不同,因此不同视角接收到的光强稍有不同,各摄像机的增益、电平不能保证完全一致,以及图像采集卡不同通道之间的噪声也不完全相同等原因,都将导致在实际获得的立体图对中相同场景点像素灰度值存在着差异。这些差异值如果没有在立体匹配之前进行消除,会对立体匹配结果产生很不利的影响。因此,在进行立体匹配之前先要对图像对进行预处理。
比较常用的预处理方法有边缘检测、边缘锐化、噪声平滑滤波、几何校正等处理。
2.
立体匹配[28]就是在两幅图像的匹配基元之间建立对应关系的过程,它是双目体视中最关键、困难的一步。与普通的图像配准不同,立体像对之间的差异是由摄像时观察点的不同引起的,而不是由其它如景物本身的变化、运动所引起的。
三维重构
经过匹配之后,得到了空间的离散点,点与点之间的情形是未知的,更不能构成平面或曲面,为了使物体真实地显示出来,需要对这些点进行剖分,赋予其深度信息,从而得到场景的三维重构模型。三维实体模型的表示方法主要有体单元法、八叉树、多面体、高度图、样条、多边形、分形几何及小波、Alpha形体、线框模型、三角形网格和符号表示等。在本论文的双目立体视觉重构研究中,三维数据是利用立体视觉匹配获得的离散数据,通常可以用深度图来表示,由于存在着遮挡现象,有时采集的数据并未提供景物的全部信息,这种数据的一个明显特征是该数据集可以投影到和深度测量轴垂直的平面区域上,为了与真正的三维数据区分,这种数据称为2.5D(2.5维)数据,通常几个2.5D数据可以合成一个3D数据集。三维实体模型的表示方法应该能同样方便地处理这两种数据类型,三角形网格能比较好地满足这种需求[29]。
相关主题