注意力与跨尺度融合的SSD目标检测算法

被引:8
作者
李青援 [1 ]
邓赵红 [1 ,2 ,3 ]
罗晓清 [1 ]
顾鑫 [4 ]
王士同 [1 ]
机构
[1] 江南大学人工智能与计算机学院
[2] 复旦大学计算神经科学与类脑智能教育部重点实验室
[3] 张江实验室
[4] 江苏北方湖光光电有限公司
关键词
目标检测; 特征融合; 注意力机制; 深度学习;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
为了进一步提升SSD算法的性能,解决SSD算法在进行多尺度预测时特征图信息不平衡和小目标识别难的问题,设计了即插即用的模块,充分融合不同尺度特征图包含的信息并建模特征图内的重要性关系,来增强特征图的表示能力。首先,设计了一种新颖的特征融合方法来解决跨尺度特征融合存在的信息差异问题。其次,根据池化金字塔的思想设计了一种深度特征提取模块来提取不同感受野的信息,从而提高模型对不同尺寸目标的检测能力。最后,为了进一步优化特征图,突出特征图对当前任务有效的信息,并建立全局像素点之间的长距离关系和各通道之间的重要性关系,提出了一种轻量级的注意力模块。通过上述机制,修改了SSD模型的架构,有效地提升了SSD算法的检测精度和鲁棒性。在PASCAL VOC数据集上设计了丰富的实验,验证了所提方法的有效性。在PASCAL VOC2007测试集上该方法比SSD算法提高了2.9个百分点的平均精确度(mAP),同时还保留了实时检测的能力。
引用
收藏
页码:2575 / 2586
页数:12
相关论文
共 10 条
[1]  
Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization[J] . Ramprasaath R. Selvaraju,Michael Cogswell,Abhishek Das,Ramakrishna Vedantam,Devi Parikh,Dhruv Batra.International Journal of Computer Vision . 2020 (2)
[2]  
ASSD: Attentive single shot multibox detector[J] . Jingru Yi,Pengxiang Wu,Dimitris N. Metaxas.Computer Vision and Image Understanding . 2019 (C)
[3]  
Squeeze-and-Excitation Networks[J] . Hu Jie,Shen Li,Albanie Samuel,Sun Gang,Wu Enhua.IEEE Transactions on Pattern Analysis and Machine Intelligence . 2019 (8)
[4]   Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [J].
Ren, Shaoqing ;
He, Kaiming ;
Girshick, Ross ;
Sun, Jian .
IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2017, 39 (06) :1137-1149
[5]  
R-FCN: Object Detection via Region-based Fully Convolutional Networks[J] . Jifeng Dai,Yi Li,Kaiming He,Jian Sun 0001.CoRR . 2016
[6]  
Very Deep Convolutional Networks for Large-Scale Image Recognition[J] . Karen Simonyan,Andrew Zisserman.CoRR . 2014
[7]  
Object Detectors Emerge in Deep Scene CNNs[J] . Bolei Zhou,Aditya Khosla,àgata Lapedriza,Aude Oliva,Antonio Torralba 0001.CoRR . 2014
[8]   Object Detection with Discriminatively Trained Part-Based Models [J].
Felzenszwalb, Pedro F. ;
Girshick, Ross B. ;
McAllester, David ;
Ramanan, Deva .
IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2010, 32 (09) :1627-1645
[9]   Distinctive image features from scale-invariant keypoints [J].
Lowe, DG .
INTERNATIONAL JOURNAL OF COMPUTER VISION, 2004, 60 (02) :91-110
[10]  
RefineNet:Iterative refinement for accurate object localization. Rajaram R N,Ohn-Bar E,Trivedi M M. International Conference on Intelligent Transportation Systems . 2016