1 航拍图像序列自动拼接技术与地图重建航拍图像序列自动拼接是指将一组内容上相关的航拍图像自动拼接为一幅能够更为全面描述场景内容的全景图像的过程。
鉴于视觉系统中存在的分辨率与视场范围之间的固有矛盾,为了保证较高的分辨率,单幅的航拍图像对应的场景区域通常较小,不利于准确、全面地观察和分析地面场景。
而航拍图像自动拼接技术正是解决这一问题的有效途径。
航拍图像拼接主要包括配准和镶嵌两个步骤,其中的核心是图像配准。
人们已经提出了很多配准方法,如灰度相关法、相位相关法、基于特征的方法等。
其中,基于特征的方法首先在两幅输入图像中分别提取具有不变性的特征点,然后通过搜索比较得到一组匹配的特征点对,并利用这些特征对之间的对应关系估计出全局变换参数,最后借助估算出的变换模型将两幅图像校正到同一平面上,从而实现配准。
相对于其他方法,基于特征的配准方法能够容忍更大的图像差异,有助于获取稳定的配准结果。
基于特征的配准方法主要有三个步骤:提取特征点、搜索匹配点和计算转换矩阵。
1.1 坐标系统在图像采集过程中需要将客观世界的3D 场景投影到摄像机的2D 像平面上,这个投影可以用成像变换来描述。
成像变换涉及到不同坐标系之间的变换,考虑到图像采集的最终结果是要得到计算机能够处理的数字图像,这里介绍一下对3D 空间景物成像时所涉及到的坐标系统。
(1)世界坐标系也称真实或现实世界坐标系统XYZ ,表示场景点在客观世界的绝对坐标(所以也称为客观世界坐标系统)。
一般的3D 空间场景都是用这个坐标系统来表示的。
(2)摄像机坐标系以摄像机(观察者)为中心制定的坐标系统xyz ,将场景点表示成以观察者为中心的数据形式,一般常取摄像机的光轴为Z 轴。
因为在场景中也许有多个摄像机,而每个摄像机都会有自己的坐标系。
在许多情况下,图像平面坐标系是摄像机坐标系的一部分。
根据透视投影公式可建立图像坐标系与摄像机坐标系之间的转换关系式:c c cf x y z x y == (3-5)用矩阵形式表示为:00000010101c c c cx x f y z y f z ⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦ (3-6)(3)像素坐标是用来表示图像阵列中图像像素位置的坐标,它也称图像阵列坐标或网格坐标。
因为摄像机采集到的图像以标准电视信号的形式输入计算机,经计算机中专用的数模转换板变换为数字图像,每幅数字图像在计算机内为M N ⨯的数组,M 行N 列的图像中每一个元素(称为像素,pixel )的数值即是图像点的亮度(或灰度)。
对于图像中每一个像素的坐标值[],i j ,i 表示该像素在图像中的列数,j 表示该像素在图像中的行数,此时i 和j 都是正整数。
这种表示方法特别方便计算机程序对图像进行处理,因为它和计算机程序中的数据结构二维数组对应,写起程序来相当方便。
为了提高处理图像的精度,还可以引入子像素(subpixel )的概念。
所谓子像素是指像素与像素之间的点,其坐标用小数表示。
(4)图像平面坐标是用来表示场景点在图像平面上的投影的坐标系。
由于在像素坐标系中每一个像素的坐标(,)u v 分别是该像素在数组中的行数与列数,并没有用物理单位表示出该像素在图像中的位置,因而需要再建立以物理单位(例如cm )表示的图像坐标系。
该坐标系以图像内某一点1O 为原点,x 轴与y 轴分别与,u v 轴平行,如下图所示,其中(,)x y 表示以毫米为单位的图像坐标系的坐标。
图 1像素坐标系与图像平面坐标系的关系其中,世界坐标系与摄像机坐标系之间是刚体转换关系。
设空间中某一点P 在世界坐标系和摄像机坐标系下的坐标分别是(,,)Tw w w x y z 与(,,)Tc c c x y z ,其转换关系式如下:1111c w w c w w Tc w w x x x y Rt y y z O z z ⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎡⎤⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦1M (3-7)其中,R 为3⨯3旋转矩阵;t 为三维平移向量;(0,0,0)T O =;1M 为4⨯4矩阵。
合并式(3-4)、(3-6)和(3-7)得:00001000010000100100011000010011w w c ww x w y Tw u x dx u f R t y z v v f O z dy x u R t y v O z αα⎡⎤⎢⎥⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎢⎥⎢⎥⎣⎦⎡⎤⎡⎤⎢⎥⎡⎤⎢⎥⎢⎥===⎢⎥⎢⎥⎢⎥⎣⎦⎢⎥⎢⎥⎣⎦⎣⎦12w w M M X MX T 1 (3-8)其中,x f dx α=,y f dy α=;X w =(x w ,y w ,z w,1)T ;M 为3⨯4矩阵,称为投影矩阵;M 1完全由0,,,,v u dy dx f 决定,它们只与摄像机内部结构有关,是摄像机内部参数;M 2完全由摄像机相对于世界坐标系的方位决定,是摄像机的外部参数。
摄像机标定就是要得到内外参数,从而确定投影矩阵M 。
1.2 成像模型一般的成像系统通常将三维场景变换为二维灰度或彩色图像,这种变换可以用一个从三维空间到二维空间的映射来表示:32:(,,)(',')f R R x y z x y ->-> (3-9)此种映射通常用到两种几何变换:正交投影和透视投影。
透视投影是最常用的成像模型,单灭点透视投影可以用针孔成像模型来近似表示,(假设相机的焦距为f )。
设坐标系的设置如下图:图 2当把图像平面对称对小孔的另一侧时,得下图:图 3则投影公式为:x z f x =',y zfy =',其矩阵形式为: ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡z f f000000000000,简写为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡z f f 000000 假设地面是一个水平面,z 轴垂直于地面向下,则投影矩阵T 为:⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡h f f0000但是实际上摄像机得到的图像是按照三灭点透视投影成像的,而且地面由于存在建筑物或者是山地,地面并不是一个平面。
所以当摄像机和拍摄物体的处于某种特殊关系时,上述情况就必须考虑,下面对此进行具体的分析。
1.3 摄像机的运动摄像机在世界坐标中的位置如下图所示。
一般摄像机的运动可以分为以下几种基本运动方式:平移:摄像机的运动平行于成像平面xy ,即摄像机平行于成像平面的运动; 镜头缩放:镜头的焦距发生变化,即成像平面与场景的距离发生变化; 水平扫动:摄像机绕y 轴旋转; 垂直扫动:摄像机绕x 轴旋转; 自转:摄像机绕光轴z 轴旋转;由于本项目中主要处理航拍图像,所以我们假设摄像机的光轴z 轴,1.4 航拍图像的纠正无人机在空中进行拍摄,摄像机的姿态是不稳定的,这使得图像序列中每一帧对应的变换矩阵都不相同,因此需要对之进行纠正。
理论上有这样几种纠正的方式:(1)利用野外可测的控制点求解摄像机的外部参数,然后进行图像校正;(2)在目标区域有正视影像或者基准图像的基础上,将采集的图像与基准图像进行配准,从而将图像序列中所有图像变换到同一个基准下;(3)基于机载导航系统和定位系统获得相机姿态,进行纠正。
1.5 定义航拍图像序列由处于飞行运动中的机载成像设备拍摄的,相邻帧之间往往存在着复杂的几何变换关系。
记成像平面上某一点Pi 的坐标为( xi ,yi ) ,其三维齐次坐标为( xi ,yi ,1) 。
设O是平面场景中的一个被观测点,假设它在两个不同成像面上的像点的坐标分别为P0和P1: P0 和P1 的齐次坐标之间满足如下关系:P1 = T P0T为8-参数透视变换矩阵。
⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=187654321m m m m m m m m T 大量实验证明,由于航拍图像序列中相邻两帧图像间视差较小, 所以可以用式(2) 给出的仿射变换矩阵来近似表达。
⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=10654321m m m m m m T 1.6 变换矩阵的计算对于航拍图像,由于其拍摄平台通常距地面较远,因而可以将一定范围内的大地场景近似为一个平面区域。
也正因为这个原因,可以将一定长度的航拍图像序列拼接为一幅全景图像。
已知摄像机到地面的高度为h 。
由于摄像机的运动,相邻帧图像之间存在一定的变换关系,我们把这些关系分为下列几仿射变换可以描述图像的旋转、平移和缩放等运动,但是难以描述摄像机水平扫动、垂直扫动和镜头缩放等运动,其应用会受到一定的限制,在摄像机受限运动的情况下,采用仿射变换模型会大大的简化计算,拼接的效果也很好。
假设透视投影(Perspective Projection )用针孔成像模型来近似表示。
摄像机三个姿态角表示机体轴系与地面轴系的关系,定义如下: 俯仰角θ:光轴与地平面的夹角,以摄像机垂直地面向下为正。
偏航角ψ:光轴在地面上的投影与地轴间的夹角,以摄像机向右偏为正.滚转角φ:又称倾斜角,指光轴与包含光轴的铅垂面间的夹角,摄像机向右倾斜时为正。
由于无人机获得的视频其观察方向都是向下的,所以我们假设世界坐标系为无人机当地水平坐标系:u 轴沿参考椭球面酉卯圈方向并指向东,v 轴沿参考椭球子午圈方向并指向北,w 轴沿参考椭球内法线方向指向地心。
则上述矩阵对应三者皆为零角度的情况。
假设这时获得的图像为Im1(x1, y1)。
设摄像机当前的滚转角为φ,则图像的变换矩阵为一个旋转矩阵:⎥⎦⎤⎢⎣⎡-φφφφcos sin sin cos 其齐次矩阵为:⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-100cos sin 0sin cos φφφφ 设摄像机偏航角ψ,则对应柱面投影矩阵设摄像机俯仰角θ,则对应球面投影矩阵1.7 特征点的构建在基于特征的匹配技术中,其首要任务是提取稳定的特征,并进行描述。
常用的方法有基于空间关系的匹配算法、基于不变量描述子的匹配算法、金字塔、和小波算法等等。
SIFT ( Scale Invariant Feature Transform 即尺度不变特征变换) 特征匹配算法是目前国内外特征匹配研究领域取得比较成功的一种算法,该算法匹配能力较强,能提取稳定的特征,可以处理两幅图像之间发生平移、旋转、仿射变换、视角变换、光照变换情况下的匹配问题,甚至在某种程度上对任意角度拍摄的图像也具备较为稳定的特征匹配能力,从而可以实现差异较大的两幅图像之间的特征的匹配。
1.8 搜索匹配点为了建立两幅图像之间的匹配关系,Marr 提出了匹配应该满足的三个基本约束条件: 1) 唯一性:物体表面任意一点到观察点的距离是唯一的,因此其视差是唯一的。
给定第一幅图像中的一点,其在第二幅图像中对应匹配点最多只有一个。
2)相似性:对应的特征应有相同的属性。