基于深度学习的图像描述研究

被引:27
作者
杨楠 [1 ,2 ]
南琳 [1 ,2 ]
张丁一 [1 ,2 ]
库涛 [1 ,2 ]
机构
[1] 中国科学院沈阳自动化研究所
[2] 中国科学院大学
关键词
卷积神经网络; 循环神经网络; 门控循环单元; 自然语言处理; 图像描述;
D O I
暂无
中图分类号
TP18 [人工智能理论]; TP391.41 [];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 080203 ;
摘要
卷积神经网络(Convolution Neural Networks,CNN)和循环神经网络(Recurrent Neural Networks,RNN)在图像分类、计算机视觉、自然语言处理、语音识别、机器翻译、语义分析等领域取得了迅速的发展,引起了研究者对计算机自动生成图像描述的广泛关注。目前图像描述存在的主要问题有输入文本数据稀疏、模型存在过拟合、模型损失函数震荡难以收敛等问题。文中使用NIC作为基线模型,针对数据稀疏问题,改变了基线模型中的文本one-hot表示,使用word2vec对文本进行映射,为了防止过拟合,在模型中加入了正则项和使用Dropout技术,并在词序记忆方面取得创新,引入联想记忆单元GRU,用于文本生成。在试验中使用Adam Optimizer优化器进行参数迭代更新。实验结果表明:改进后的模型参数减少且收敛速度大幅加快,损失函数曲线更加平滑,损失最大降至2.91,模型的准确率比NIC提高了接近15%。实验有效地验证了在模型当中使用word2vec对文本进行映射可明显缓解数据稀疏问题,加入正则项和使用Dropout技术可有效防止模型过拟合,引入联想记忆单元GRU能够大幅减少模型训练参数,加快算法收敛速度,进而提高整个模型的准确率。
引用
收藏
页码:18 / 25
页数:8
相关论文
共 1 条
[1]   神经网络在图像处理中的应用 [J].
许锋 ;
卢建刚 ;
孙优贤 .
信息与控制, 2003, (04) :344-351