当前位置：文档之家› 基于编解码卷积神经网络的单张图像深度估计

基于编解码卷积神经网络的单张图像深度估计

2019年 8月图学学报 August2019

第40卷第4期 JOURNAL OF GRAPHICS Vol.40No.4

收稿日期：2019-02-14；定稿日期：2019-03-18 基金项目：北京市教委面上基金(KM201510009005)；北方工业大学学生科技活动项目(110051360007) 第一作者：贾瑞明(1978)，男，北京人，助研，博士，硕士生导师。主要研究方向为图像处理与智能识别等。E-mail：jiaruiming@ncut.edu.cn 基于编解码卷积神经网络的单张图像深度估计

贾瑞明，刘立强，刘圣杰，崔家礼

(北方工业大学信息学院，北京 100144)

摘要：针对传统方法在单目视觉图像深度估计时存在鲁棒性差、精度低等问题，提出一种基于卷积神经网络(CNN)的单张图像深度估计方法。首先，提出层级融合编码器-解码器网络，该网络是对端到端的编码器-解码器网络结构的一种改进。编码器端引入层级融合模块，并通过对多层级特征进行融合，提升网络对多尺度信息的利用率。其次，提出多感受野残差模块，其作为解码器的主要组成部分，负责从高级语义信息中估计深度信息。同时，多感受野残差模块可灵活地调整网络感受野大小，提高网络对多尺度特征的提取能力。在NYUD v2数据集上完成网络模型有效性验证。实验结果表明，与多尺度卷积神经网络相比，该方法在精度δ<1.25上提高约4.4%，在平均相对误差指标上降低约8.2%。证明其在单张图像深度估计的可行性。

关键词：CNN；编码器-解码器；深度估计；单目视觉中图分类号：TP 391 DOI：10.11996/JG.j.2095-302X.2019040718 文献标识码：A 文章编号：2095-302X(2019)04-0718-07

Single Image Depth Estimation Based on Encoder-Decoder

Convolution Neural Network

JIA Rui-ming, LIU Li-qiang, LIU Sheng-jie, CUI Jia-li

(School of Information Science and Technology, North China University of Technology, Beijing 100144, China)

Abstract: Focusing on the poor robustness and lower accuracy in traditional methods of estimating depth in monocular vision, a method based on convolution neural network (CNN) is proposed for predicting depth from a single image. At first, fused-layers encoder-decoder network is presented. This network is an improvement of the end-to-end encoder-decoder network structure. Fused-layers block is added to encoder network, and the network utilization of multi-scale information is improved by this block with fusing multi-layers feature. Then, a multi-receptive field res-block is proposed, which is the main component of the decoder and used for estimating depth from high-level semantic information. Meanwhile, the network capacity of multi-scale feature extraction is enhanced because the size of receptive field is flexible to change in multi-receptive field res-block. The validation of proposed network is conducted on NYUD v2 dataset, and compared with multi-scale convolution neural network, experimental results show that the accuracy of proposed method is improved by about 4.4% in δ<1.25 and average relative error is reduced by about 8.2%. The feasibility of proposed method in estimating depth from a single image is proved.

Keywords: CNN; encoder-decoder; depth estimation; monocular vision

第4期贾瑞明，等：基于编解码卷积神经网络的单张图像深度估计 719 随着人工智能技术的快速发展，虚拟现实[1]和

自动驾驶[2]等技术对于三维重建需求巨大。准确的

深度信息对于重建三维场景具有重要意义，其广泛

应用于语义分割[3-4]、目标跟踪[5-6]和机器人控制系

统[7]等任务。工业界多使用激光雷达或激光扫描仪

获取深度图。前者可用于动态场景，但获取的深度

图较为稀疏；后者获取的深度图稠密但成像耗时

长，且一般用于静态场景。同时两者的成本较高，

而单张图像获取成本较低。因此，研究通过单张图

像进行深度估计具有较大的实用价值。然而，由于

单张图像本身存在信息缺失，使用单张图像进行深

度估计属于病态问题，具有较大的挑战。

传统图像估计深度的方法多基于双目视觉系

统，其精度易受视差图质量的影响。实际场景中，

受光照条件、图像纹理分布及观测视角的影响，难

以获取高质量的视差图。因此，研究者们提出了多

种算法用于获取较高质量的视差图[8-10]。然而，单目

视觉算法着重解决如何估计物体间的相对位置关

系。通过单张图像恢复深度的原理包括：①在实际

场景中，物体间存在确定的相对关系及几何结构；

②人的视觉形成过程中，可根据经验知识推断物体

间的距离。与传统方法相比，深度神经网络具备较

强的拟合能力，在经过大量训练后，可以拟合真实

样本分布。本文提出基于卷积神经网络(convolution

neural network, CNN)的单张图像深度估计网络：层级

融合编码器-解码器网络(fused-layers encoder-decoder

network, FLEDNet)，具体贡献如下：

(1) 编码器端。提出层级融合模块(fused-layers

block, FLB)，该模块提升编码器网络对多尺度特征

的利用率。

(2)解码器端。提出多感受野残差模块

(multi-receptive field res-block, MRFRB)作为解码器

主要组成部分。相较于Inception-ResNet网络[11]，

MRFRB可灵活增加网络的感受野，同时残差结构

的引入改善了网络在加深时梯度消失的问题。

1 相关工作

从图像或视频中估计深度信息一直以来是研

究热点，目前大量的研究工作多集中于基于深度神

经网络与非深度神经网络方法的研究。

(1) 非深度神经网络方法。KARSCH等[12]提出

基于最近邻(k-nearest neighbor, kNN)的搜索方法，

从RGBD数据库中选取候选图像，通过SIFT Flow算法[13]对深度信息进行优化，实现图像深度估计。

但该方法需要建立完善的数据库，计算量较大，在

实际应用时局限性较大。TIAN等[14]基于马氏距离

(Mahalanobis distance)和高斯加权函数(Gaussian

weighting function)的深度信息采样方法，在Make3D

数据集上取得较好的实验结果。HERRERA等[15]提

出基于聚类的学习框架，通过在色彩空间分析结构

相似性以及使用kNN搜索算法从图像中提取深度

信息。LIU等[16]使用高阶离散-连续的条件随机场

从单张图像获取深度。CHOI等[17]提出一种在梯度

域建模的方法，是一种非参数模型。当输入图像纹

理分布重复时，该方法失效。本文采用的深度卷积

神经网络对输入图像的纹理分布较为鲁棒。

(2) 深度神经网络方法。其在计算机视觉任务中

表现出色，文献[18]提出多尺度CNN以及尺度不变

的损失函数，实现对单张图像的深度、表面法线和

语义标签的估计，但图像分辨率较低。文献[19]使用

多孔卷积神经网络(atrous convolution neural network,

ACNN)与条件随机场相结合的策略，获得了较好的

单张图像深度估计效果。袁建中等[20]提出基于

ResNet和DenseNet结合的深度卷积神经网络用于解

决道路场景的单目视觉深度估计问题。JUNG等[21]

使用条件生成对抗网络(conditional generative

adversarial network)实现单张图像深度估计，采用基

于编码器-解码器与精炼网络(refinement network)相

结合的生成器网络，在客观数据集上达到了较好的

实验结果。LAINA等[22]使用残差结构设计网络，并

提出快速上卷积(up-convolution)网络，在NYUD

v2[23]上有优异的表现。

2 深度估计网络

使用CNN从单张图像中估计深度信息属于密

集预测任务，编码器-解码器网络广泛应用于密集预

测任务中，例如语义分割[24]、图像风格转换[25]等。本

文对传统编码器-解码器网络结构进行改进，提出端

到端的FLEDNet。同时，针对深度预测问题，设计了

MRFRB，进一步提升网络的深度信息预测能力。

2.1 层级融合编码器-解码器网络结构针对单目视觉中，深度预测存在过程复杂、精

度较低等问题，例如文献[16,19]依赖条件随机场对网络输出的深度图进行处理，以得到精度更高的深度图。本文提出FLEDNet，其输入为RGB彩色图

像，网络直接输出的是估计的深度图，且无需任何

e商务文档

基于编解码卷积神经网络的单张图像深度估计

相关文档推荐：