当前位置:文档之家› 基于深度学习的图像深度估计及其应用研究

基于深度学习的图像深度估计及其应用研究

基于深度学习的图像深度估计及其应用研究场景深度估计是计算机视觉领域的一项重要课题。

利用图像的深度信息,可以重构场景的三维结构信息,对机器人自主导航、物体识别与抓取等任务具有重要意义。

传统的视觉深度估计方法多利用场景的多视信息,通过三角几何对应关系从二维图像中恢复场景深度,计算量大且复杂。

近年,随着深度学习的发展,利用卷积神经网络重构场景深度成为研究者关注的热点方向。

卷积神经网络可以利用图像数据及其配套的基准深度数据预先训练学习,在测试阶段可以实现端到端的全分辨率图像深度估计。

该方法不仅速度快,实现简单,而且可实现场景的尺度恢复,有益于机器人的空间任务执行。

在此背景下,本文在深入研究近年基于卷积神经网络的深度估计方法基础上,提出创新性的端到端深度学习网络,实验证明所提方法可进一步提升算法性能。

本文首先提出了一种端到端的学习方案,用于从稀疏深度图和RGB图像中预测尺度化的稠密深度图。

该方案中,首先利用稀疏采样生成稀疏深度图,然后将彩色图像和稀疏深度图作为网络输入,输出全分辨率深度图像。

在训练过程中,稀疏深度图作为深度估计网络的监督信号来恢复场景的真实尺度。

为了更精确的估计场景深度,本文引入“correlation”层,人工模拟标准匹配过程来融合稀疏深度信息和彩色图像信息,即使用颜色信息来帮助提高基于稀疏深度图的预测精度。

最后,利用精细化模块以全分辨率输出场景深度图像。

在NYU-Depth-V2和KITTI数据集上的实验结果表明,与前沿算法相比,该模型能够以全分辨率恢复尺度化的场景深度,具有更优的性能。

本文提出了并行构
建的深度估计网络和相机位姿估计网络。

相机位姿估计网络以单目视频序列为输入,输出六自由度的相机相对位姿。

深度估计网络以单目目标视图为输入,生成稠密的场景深度。

最后基于相机模型,生成合成视图,并把它作为监督信号联合训练两个并行的估计网络。

与此同时,稀疏采样生成的稀疏深度图作为深度估计网络的另一个监督信号,帮助恢复其全局尺度。

深度估计网络获得的尺度信息又通过合成视图与目标视图的光度误差耦合传递给位姿估计网络。

在测试阶段,深度估计器和位姿估计器可以分别独立的使用。

在KITTI数据集上对本文算法进行了实验评估,所提算法在多个指标上优于前沿算法。

相关主题