LSTM逐层多目标优化及多层概率融合的图像描述

被引:56
作者
汤鹏杰 [1 ,2 ,3 ]
王瀚漓 [1 ,2 ]
许恺晟 [1 ,2 ]
机构
[1] 同济大学计算机科学与技术系
[2] 嵌入式系统与服务计算教育部重点实验室(同济大学)
[3] 井冈山大学数理学院
关键词
图像描述; 多目标优化; 逐层优化; 多层融合; 长短时记忆网络; 卷积神经网络;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
摘要
使用计算模型对图像进行自动描述属于视觉高层理解,要求模型不仅能够对图像中的目标及场景进行描述,而且能够对目标与目标之间、目标与场景之间的关系进行表达,同时能够生成符合一定语法和结构的自然语言句子.目前基于深度卷积神经网络(Convolutional neural network,CNN)和长短时记忆网络(Long-short term memory,LSTM)的方法已成为解决该问题的主流,虽然已取得巨大进展,但存在LSTM层次不深,难以优化的问题,导致模型性能难以提升,生成的描述句子质量不高.针对这一问题,受深度学习思想的启发,本文设计了基于逐层优化的多目标优化及多层概率融合的LSTM(Multi-objective layer-wise optimization/multi-layer probability fusion LSTM,MLO/MLPF-LSTM)模型.模型中首先使用浅层LSTM进行训练,收敛之后,保留原LSTM模型中的分类层及目标函数,并添加新的LSTM层及目标函数重新对模型进行训练,对模型原有参数进行微调;在测试时,将多个分类层使用Softmax函数进行变换,得到每层对单词的预测概率分值,然后将多层的概率分值进行加权融合,得到单词的最终预测概率.在MSCOCO和Flickr30K两个数据集上实验结果显示,该模型性能显著,在多个统计指标上均超过了同类其他方法.
引用
收藏
页码:1237 / 1249
页数:13
相关论文
共 13 条
[1]
基于深度学习和层次语义模型的极化SAR分类 [J].
石俊飞 ;
刘芳 ;
林耀海 ;
刘璐 .
自动化学报, 2017, 43 (02) :215-226
[2]
面向自然语言处理的深度学习研究.[J].奚雪峰;周国栋;.自动化学报.2016, 10
[3]
基于并行深度卷积神经网络的图像美感分类 [J].
王伟凝 ;
王励 ;
赵明权 ;
蔡成加 ;
师婷婷 ;
徐向民 .
自动化学报, 2016, 42 (06) :904-914
[4]
基于梯度核特征及N-gram模型的商品图像句子标注 [J].
张红斌 ;
姬东鸿 ;
尹兰 ;
任亚峰 .
计算机科学, 2016, 43 (05) :269-273+287
[5]
深度学习在游戏中的应用 [J].
郭潇逍 ;
李程 ;
梅俏竹 .
自动化学报, 2016, 42 (05) :676-684
[6]
深度学习在控制领域的研究现状与展望 [J].
段艳杰 ;
吕宜生 ;
张杰 ;
赵学亮 ;
王飞跃 .
自动化学报, 2016, 42 (05) :643-654
[7]
面向智能交互的图像识别技术综述与展望 [J].
蒋树强 ;
闵巍庆 ;
王树徽 .
计算机研究与发展, 2016, 53 (01) :113-122
[8]
ImageNet Large Scale Visual Recognition Challenge [J].
Russakovsky, Olga ;
Deng, Jia ;
Su, Hao ;
Krause, Jonathan ;
Satheesh, Sanjeev ;
Ma, Sean ;
Huang, Zhiheng ;
Karpathy, Andrej ;
Khosla, Aditya ;
Bernstein, Michael ;
Berg, Alexander C. ;
Fei-Fei, Li .
INTERNATIONAL JOURNAL OF COMPUTER VISION, 2015, 115 (03) :211-252
[9]
Grounded Compositional Semantics for Finding and Describing Images with Sentences.[J].Richard Socher;Andrej Karpathy;Quoc V. Le;Christopher D. Manning;Andrew Y. Ng.Transactions of the Association for Computational Linguistics.2014,
[10]
From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions.[J].Peter Young;Alice Lai;Micah Hodosh;Julia Hockenmaier.Transactions of the Association for Computational Linguistics.2014,