针对传统方法在单目视觉图像深度估计时存在鲁棒性差、精度低等问题,提出一种基于卷积神经网络(CNN)的单张图像深度估计方法。首先,提出层级融合编码器-解码器网络,该网络是对端到端的编码器-解码器网络结构的一种改进。编码器端引入层级融合模块,并通过对多层级特征进行融合,提升网络对多尺度信息的利用率。其次,提出多感受野残差模块,其作为解码器的主要组成部分,负责从高级语义信息中估计深度信息。同时,多感受野残差模块可灵活地调整网络感受野大小,提高网络对多尺度特征的提取能力。在NYUDv2数据集上完成网络模型有效性验证。实验结果表明,与多尺度卷积神经网络相比,该方法在精度δ<1.25上提高约4.4%,在平均相对误差指标上降低约8.2%。证明其在单张图像深度估计的可行性。