基于计算机视觉的虚实场景合成方法研究与应用
引言虚拟现实技术的最终目的是使用户完全沉浸在一个由计算机生成的虚拟环境中,该技术已经被成功地应用到军事、教育、娱乐等众多领域。
随着应用的增多,虚拟现实技术的缺陷也逐渐暴露出来,主要表现在如下两个方面:(1)虚拟现实中的场景完全由计算机生成,随着绘制场景真实程度的提高,对系统硬件配置的要求也相应提高,从而形成了绘制效果和实时性两个同等重要又难以同时解决的问题。
(2)交互方式受限.鼠标、键盘等传统输入设备并没有提供给用户一种直观自然的交互方式,而数据手套等较为昂贵的外围设备不仅使用起来不方便,而且对工作范围也有一定的限制。
混合现实技术的出现很大程度上解决了以上两个问题,它将计算机生成的虚拟场景、提示信息实时叠加到用户所能观察到的真实世界当中,并以此来增强用户视觉感受。
在混合现实环境中用户所能观察到的主体是来源于真实世界的图像信息,虚拟场景只起到辅助、提示作用,因此不需要真实感图形绘制所需的高端的硬件配置。
另一方面,由于图像信息来源于真实世界,这就使得用户本身能够很自然地融合到整个系统中,并且能够以一种自然、直观的方式与系统交互,而不必添加额外的硬件设备。
正是由于以上特性,混合现实技术已经被应用到众多领域当中,而且能够比虚拟现实更好地完成某些任务,如交互式规划、动态虚拟展示等。
一个实用的混合现实系统所必须具备的特性之一是几何一致性,即系统必须实时准确地判断摄像机相对于真实世界的位置和姿态.以便将虚拟场景正确地叠加到真实世界的具体位置上,使得用户从感官上认为虚拟场景确实是真实世界的一部分。
传统的方法是利用硬件设备(电磁式、机械式跟踪系统)来获取摄像头位置信息,但这些方法不仅工作范围受限,而且求得的结果也不够精确。
本文采用当前流行的基于计算机视觉的方法来获取位置信息,事实证明该方法是有效、可行的。
系统结构及工作流程笔者构建了一个如图1所示的混合现实原型系统,主要由如下几个部分组成:(1)平面标识块:一个带有黑色边框的正方形.尺寸、内部图案由用户定义,主要功能是使系统能够根据实际图像中标识的变形来计算虚实配准所需的位置、姿态信息,同时还可以用不同的内部图案代表不同的虚拟场景,以增强系统的实用性。
(2)图像采集设备(摄像机):主要完成实时视频采集功能。
(3)图形渲染系统:生成与视频合成所需的虚拟场景。
(4)虚实合成:利用摄像机位置、姿态信息将视频与虚拟场景相融合。
(5)显示设备:包括头盔式显示器以及桌面台式显示器,用以将虚实合成的影像展现给使用者。
系统运行过程中,首先将采集到的一帧彩色图像转换成一幅二值(黑白)图像,然后对该二值图像进行连通域分析,找出其中所有的四边形区域作为候选匹配区域,将每一候选区域与模板库中的模板进行匹配,如果产生匹配,则认为找到了一个标识,在生成与该标识对应的虚拟场景的同时利用该标识区域的变形来计算摄像机相对于已知标识的位置和姿态,最后根据得到的变换矩阵实现虚实之间的无缝融合。
2 标识识别与摄像机位置、姿态跟踪算法由上一节可知,构建该系统有两个关键问题需要解决,即如何识别标识内部的不同图案以生成与之对应的虚拟场景以及如何利用标识的变形计算虚实配准所需的坐标变换关系。
以下分别介绍以上两个问题的解决方法。
2.1标识识别本系统所采用的标识识别方法可以分为以下几步。
2.1.1图像二值化首先对采集到的彩色图像进行二值化,处理成黑白(0,1)图像,如图2(b)。
具体方法为:设定一个阈值,对图像进行遍历,根据该阈值,对图像重新赋值。
为了克服光照对识别结果造成的影响,同时采用了自适应阈值法来提高系统稳定性,设定当前阈值为上一帧图像中标识投影区域像素灰度的平均值,实验证明该方法对改善系统性能有较为明显的效果。
2.1.2连通域分析连通域分析的目的是从复杂背景中提取标识的投影区域。
分析过程为:查找所有像素值为1的连通区域,首先根据大小约束对区域进行预筛选,然后利用最小二乘直线拟合法筛选出所有四边形区域,结果见图2(c)。
2.1.3 区域规则化与模板匹配区域规则化是将图像中经过投影变换的标识区域变换到标准模板空间,本文利用仿射变换将标识经过投影变形后的区域直接映射到一个64×64大小的正方形模板,效果见图2(d)。
接下来的工作是将规则化图像与模板库中的模板进行匹配,以返回代表不同虚拟场景的ID值。
本文采用相关系数法来完成匹配工作,方法如下:
首先利用以下四式计算规则化图像I和标准模板图像P各自的均值和方差。
然后计算两幅图像的相关系数p,本文选择所有模板中与规则化图像具有最大相关系数p且p>0.5的模板作为当前匹配结果,并返回与之对应的ID值2.2摄像机位置、姿态估计首先给出系统的坐标变换关系如图3所示。
规定平面标识在世界坐标系中的位置为已知,摄像机位置、姿态计算问题转化为摄像机坐标系与世界坐标系之间三维变换矩阵的求解。
世界坐标系与摄像机坐标系间的变换关系可以用式(5)表示。
其中W为世界坐标系下某点坐标,C为该点在摄像机坐标系中的位置,T :[R R R:T] 为待求三维变换矩阵,包含三个旋转分量和一个平移分量。