当前位置:文档之家› 基于编解码卷积神经网络的单张图像深度估计

基于编解码卷积神经网络的单张图像深度估计

2019年 8月 图 学 学 报 August2019

第40卷 第4期 JOURNAL OF GRAPHICS Vol.40No.4

收稿日期:2019-02-14;定稿日期:2019-03-18 基金项目:北京市教委面上基金(KM201510009005);北方工业大学学生科技活动项目(110051360007) 第一作者:贾瑞明(1978),男,北京人,助研,博士,硕士生导师。主要研究方向为图像处理与智能识别等。E-mail:jiaruiming@ncut.edu.cn 基于编解码卷积神经网络的单张图像深度估计

贾瑞明, 刘立强, 刘圣杰, 崔家礼

(北方工业大学信息学院,北京 100144)

摘要:针对传统方法在单目视觉图像深度估计时存在鲁棒性差、精度低等问题,提出一种基于卷积神经网络(CNN)的单张图像深度估计方法。首先,提出层级融合编码器-解码器网络,该网络是对端到端的编码器-解码器网络结构的一种改进。编码器端引入层级融合模块,并通过对多层级特征进行融合,提升网络对多尺度信息的利用率。其次,提出多感受野残差模块,其作为解码器的主要组成部分,负责从高级语义信息中估计深度信息。同时,多感受野残差模块可灵活地调整网络感受野大小,提高网络对多尺度特征的提取能力。在NYUD v2数据集上完成网络模型有效性验证。实验结果表明,与多尺度卷积神经网络相比,该方法在精度δ<1.25上提高约4.4%,在平均相对误差指标上降低约8.2%。证明其在单张图像深度估计的可行性。

关键词:CNN;编码器-解码器;深度估计;单目视觉 中图分类号:TP 391 DOI:10.11996/JG.j.2095-302X.2019040718 文献标识码:A 文 章 编 号:2095-302X(2019)04-0718-07

Single Image Depth Estimation Based on Encoder-Decoder

Convolution Neural Network

JIA Rui-ming, LIU Li-qiang, LIU Sheng-jie, CUI Jia-li

(School of Information Science and Technology, North China University of Technology, Beijing 100144, China)

Abstract: Focusing on the poor robustness and lower accuracy in traditional methods of estimating depth in monocular vision, a method based on convolution neural network (CNN) is proposed for predicting depth from a single image. At first, fused-layers encoder-decoder network is presented. This network is an improvement of the end-to-end encoder-decoder network structure. Fused-layers block is added to encoder network, and the network utilization of multi-scale information is improved by this block with fusing multi-layers feature. Then, a multi-receptive field res-block is proposed, which is the main component of the decoder and used for estimating depth from high-level semantic information. Meanwhile, the network capacity of multi-scale feature extraction is enhanced because the size of receptive field is flexible to change in multi-receptive field res-block. The validation of proposed network is conducted on NYUD v2 dataset, and compared with multi-scale convolution neural network, experimental results show that the accuracy of proposed method is improved by about 4.4% in δ<1.25 and average relative error is reduced by about 8.2%. The feasibility of proposed method in estimating depth from a single image is proved.

Keywords: CNN; encoder-decoder; depth estimation; monocular vision

第4期 贾瑞明,等:基于编解码卷积神经网络的单张图像深度估计 719 随着人工智能技术的快速发展,虚拟现实[1]和

自动驾驶[2]等技术对于三维重建需求巨大。准确的

深度信息对于重建三维场景具有重要意义,其广泛

应用于语义分割[3-4]、目标跟踪[5-6]和机器人控制系

统[7]等任务。工业界多使用激光雷达或激光扫描仪

获取深度图。前者可用于动态场景,但获取的深度

图较为稀疏;后者获取的深度图稠密但成像耗时

长,且一般用于静态场景。同时两者的成本较高,

而单张图像获取成本较低。因此,研究通过单张图

像进行深度估计具有较大的实用价值。然而,由于

单张图像本身存在信息缺失,使用单张图像进行深

度估计属于病态问题,具有较大的挑战。

传统图像估计深度的方法多基于双目视觉系

统,其精度易受视差图质量的影响。实际场景中,

受光照条件、图像纹理分布及观测视角的影响,难

以获取高质量的视差图。因此,研究者们提出了多

种算法用于获取较高质量的视差图[8-10]。然而,单目

视觉算法着重解决如何估计物体间的相对位置关

系。通过单张图像恢复深度的原理包括:①在实际

场景中,物体间存在确定的相对关系及几何结构;

②人的视觉形成过程中,可根据经验知识推断物体

间的距离。与传统方法相比,深度神经网络具备较

强的拟合能力,在经过大量训练后,可以拟合真实

样本分布。本文提出基于卷积神经网络(convolution

neural network, CNN)的单张图像深度估计网络:层级

融合编码器-解码器网络(fused-layers encoder-decoder

network, FLEDNet),具体贡献如下:

(1) 编码器端。提出层级融合模块(fused-layers

block, FLB),该模块提升编码器网络对多尺度特征

的利用率。

(2)解码器端。提出多感受野残差模块

(multi-receptive field res-block, MRFRB)作为解码器

主要组成部分。相较于Inception-ResNet网络[11],

MRFRB可灵活增加网络的感受野,同时残差结构

的引入改善了网络在加深时梯度消失的问题。

1 相关工作

从图像或视频中估计深度信息一直以来是研

究热点,目前大量的研究工作多集中于基于深度神

经网络与非深度神经网络方法的研究。

(1) 非深度神经网络方法。KARSCH等[12]提出

基于最近邻(k-nearest neighbor, kNN)的搜索方法,

从RGBD数据库中选取候选图像,通过SIFT Flow算法[13]对深度信息进行优化,实现图像深度估计。

但该方法需要建立完善的数据库,计算量较大,在

实际应用时局限性较大。TIAN等[14]基于马氏距离

(Mahalanobis distance)和高斯加权函数(Gaussian

weighting function)的深度信息采样方法,在Make3D

数据集上取得较好的实验结果。HERRERA等[15]提

出基于聚类的学习框架,通过在色彩空间分析结构

相似性以及使用kNN搜索算法从图像中提取深度

信息。LIU等[16]使用高阶离散-连续的条件随机场

从单张图像获取深度。CHOI等[17]提出一种在梯度

域建模的方法,是一种非参数模型。当输入图像纹

理分布重复时,该方法失效。本文采用的深度卷积

神经网络对输入图像的纹理分布较为鲁棒。

(2) 深度神经网络方法。其在计算机视觉任务中

表现出色,文献[18]提出多尺度CNN以及尺度不变

的损失函数,实现对单张图像的深度、表面法线和

语义标签的估计,但图像分辨率较低。文献[19]使用

多孔卷积神经网络(atrous convolution neural network,

ACNN)与条件随机场相结合的策略,获得了较好的

单张图像深度估计效果。袁建中等[20]提出基于

ResNet和DenseNet结合的深度卷积神经网络用于解

决道路场景的单目视觉深度估计问题。JUNG等[21]

使用条件生成对抗网络(conditional generative

adversarial network)实现单张图像深度估计,采用基

于编码器-解码器与精炼网络(refinement network)相

结合的生成器网络,在客观数据集上达到了较好的

实验结果。LAINA等[22]使用残差结构设计网络,并

提出快速上卷积(up-convolution)网络,在NYUD

v2[23]上有优异的表现。

2 深度估计网络

使用CNN从单张图像中估计深度信息属于密

集预测任务,编码器-解码器网络广泛应用于密集预

测任务中,例如语义分割[24]、图像风格转换[25]等。本

文对传统编码器-解码器网络结构进行改进,提出端

到端的FLEDNet。同时,针对深度预测问题,设计了

MRFRB,进一步提升网络的深度信息预测能力。

2.1 层级融合编码器-解码器网络结构 针对单目视觉中,深度预测存在过程复杂、精

度较低等问题,例如文献[16,19]依赖条件随机场对网络输出的深度图进行处理,以得到精度更高的深度图。本文提出FLEDNet,其输入为RGB彩色图

像,网络直接输出的是估计的深度图,且无需任何

相关主题