图像内容的语义描述与理解

被引:0
作者
袁爱红
机构
[1] 中国科学院大学(中国科学院西安光学精密机械研究所)
关键词
图像文本描述; 视觉问答; 多模态学习; 递归神经网络;
D O I
暂无
年度学位
2018
学位类型
博士
导师
摘要
图像内容的学习与理解是人工智能必须经历的一个过程。本论文以自然图像为研究对象,通过研究图像中包含的物体类别,挖掘目标的属性以及目标与目标之间的相互关系,利用计算机程序和人工智能方法完成图像内容的语义解释,使计算机系统自动获得图像所表达的信息内容。而语言作为人类交流的重要工具,也是智能的一个重要标志,因此,研究者们也希望计算机能够像人类一样,不仅能学习和理解图像的内容,还能够像人类一样能够用自然语言描述出来,能够像人类一样会推理,会像人类一样正确回答问题。这和人工智能领域的一个梦想是一致的:让计算机能够看到并理解我们周围丰富的视觉世界,并赋予它们以自然语言与人类沟通的能力。图像内容的智能学习与理解作为人工智能领域与计算机视觉领域的重要交叉学科,自然也受到研究者们广泛的研究。本论文结合这一课题,主要针对两个子任务——图像的文本描述与视觉问答任务,这两个任务将图像内容的理解同人类语言联系起来,这也是走向真正人工智能必须经历的一步。本论文主要研究完成上述两个任务的方法。主要内容和贡献归纳如下:(1)基于门控递归单元的图像文本描述算法。针对传统的非深度算法存在生成的图像描述语句句式单一、长短固定、描述内容极其有限的缺点,本论文利用现在流行的强大的深度网络来实现图像的文本描述。首先,利用深度卷积神经网络对图像进行编码,提取更具判别性和表达性的图像全局特征;其次,利用门控递归单元作为多模态融合学习和语句生成器模块,该模型不仅可以生成长度可变、样式丰富的自然语句,而且能够充分挖掘自然语言和图像之间的多模态映射关系。在此基础上,我们通过加深递归单元的深度,使其能够更好的模拟图像和自然语言的非线性关系。该算法在三个主要图像-文本描述数据集上进行了验证,实验结果表明,该算法能够很好的实现从图像到文本的“翻译”。(2)基于图像全局-局部特征及注意力机制的图像文本描述算法。由于基于图像全局特征的图像文本描述算法仅能学习整幅图像和整个描述语句的多模态映射关系,显然,这种映射有些粗糙,因此,我们需要进一步寻找图像局部区域与自然语言基本单元之间的细粒度映射关系。该算法利用视觉注意力机制来挖掘这种对应关系,每次生成的单词用来选取相应的图像区域。然而,现有利用注意力机制的方法仅仅用到图像局部特征,抛弃了图像全局特征,而图像全局特征蕴藏着图像的全局信息,是对局部特征的重要补充。同时,局部特征会受到图像尺度变化的影响。因此,该算法将图像全局特征和局部特征通过多模态融合模块进行融合。此外,为了进一步提升现有方法中语言模型和多模态融合模块的性能,我们采用门控反馈策略加深长-短时记忆网络的层数。实验结果表明,该算法在图像文本描述任务中表现优异。(3)基于属性及注意力机制的视觉到语言任务算法。为了减轻图像信息和自然语言间的跨模态语义鸿沟问题,该算法将图像属性信息作为图像与语言间的“桥梁”。该算法主要包含两个层级的注意力网络——基于语义指导的注意力网络和基于文本指导的注意力网络。前者用于突出和图像属性相关的区域以及和图像区域相关的属性,后者用于寻找自然语句和图像局部之间的映射关系。该算法有两个分支,分别用于图像文本描述和视觉问答任务。相关实验也在这两类数据集上进行,实验结果表明,该算法提高了图像文本描述和视觉问答的精度。
引用
收藏
页数:126
共 9 条
[1]
机器学习.[M].周志华.清华大学出版社.2016,
[2]
Hierarchical boundary-aware neural encoder for video captioning..BARALDI L;GRANA C;CUCCHIARA R;.Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.2017,
[3]
Framing image description as a ranking task:Data;models and evaluation metrics..Hodosh M;Young P;Hockenmaier J;.IJCAI International Joint Conference on Artificial Intelligence;2015.2015,
[4]
Temporal Multimodal Learning in Audiovisual Speech Recognition..Hu D;Li X;Lu X;.Computer Vision and Pattern Recognition.2016,
[5]
Graduate summer school Deep learning;feature learning..Hinton G;.https://www.ipam.ucla.edu/schedule.aspx?pc=gss2012.,
[6]
Visual question answering: A survey of methods and datasets.[J].Qi Wu;Damien Teney;Peng Wang;Chunhua Shen;Anthony Dick;Anton van den Hengel.Computer Vision and Image Understanding.2017,
[7]
VQA: Visual Question Answering [J].
Agrawal, Aishwarya ;
Lu, Jiasen ;
Antol, Stanislaw ;
Mitchell, Margaret ;
Zitnick, C. Lawrence ;
Parikh, Devi ;
Batra, Dhruv .
INTERNATIONAL JOURNAL OF COMPUTER VISION, 2017, 123 (01) :4-31
[8]
The Pascal Visual Object Classes (VOC) Challenge [J].
Everingham, Mark ;
Van Gool, Luc ;
Williams, Christopher K. I. ;
Winn, John ;
Zisserman, Andrew .
INTERNATIONAL JOURNAL OF COMPUTER VISION, 2010, 88 (02) :303-338
[9]
Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780