多模态深度学习综述

被引：40

作者：

刘建伟

丁熙浩

罗雄麟

机构：

[1] 中国石油大学(北京)自动化系

来源：

计算机应用研究 | 2020年 / 37卷 / 06期

关键词：

多模态; 深度学习; 多神经网络; 多模态表示; 多模态传译; 多模态融合; 多模态对齐;

D O I：

10.19734/j.issn.1001-3695.2018.12.0857

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。

引用

页码：1601 / 1614

页数：14

共 25 条

[1] 基于多注意力卷积神经网络的特定目标情感分析
梁斌
刘全
徐进
周倩
章鹏
[J]. 计算机研究与发展, 2017, 54 (08) : 1724 - 1735
[2] 深度学习在语音识别中的研究进展综述
侯一民
周慧琼
王政一
[J]. 计算机应用研究, 2017, 34 (08) : 2241 - 2246
[3] 深度递归的层次化机器翻译模型
刘宇鹏
马春光
张亚楠
[J]. 计算机学报, 2017, 40 (04) : 861 - 871
[4] Multimodal Machine Learning: A Survey and Taxonomy
Baltrusaitis, Tadas
Ahuja, Chaitanya
Morency, Louis-Philippe
[J]. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2019, 41 (02) : 423 - 443
[5] Visual question answering: A survey of methods and datasets[J] . Qi Wu,Damien Teney,Peng Wang,Chunhua Shen,Anthony Dick,Anton van den Hengel.Computer Vision and Image Understanding . 2017
[6] Deep Visual-Semantic Alignments for Generating Image Descriptions
Karpathy, Andrej
Li Fei-Fei
[J]. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2017, 39 (04) : 664 - 676
[7] Long-Term Recurrent Convolutional Networks for Visual Recognition and Description
Donahue, Jeff
Hendricks, Lisa Anne
Rohrbach, Marcus
Venugopalan, Subhashini
Guadarrama, Sergio
Saenko, Kate
Darrell, Trevor
[J]. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2017, 39 (04) : 677 - 691
[8] ModDrop: Adaptive Multi-Modal Gesture Recognition[J] . Neverova,Natalia,Wolf,Christian,Taylor,Graham,Nebout,Florian.IEEE Transactions on Pattern Analysis and Machine Intelligence . 2016 (8)
[9] Multimodal Data Fusion: An Overview of Methods, Challenges, and Prospects[J] . Lahat,Dana,Adali,Tuelay,Jutten,Christian.Proceedings of the IEEE . 2015 (9)
[10] Multimodal learning with deep Boltzmann machines[J] . Nitish Srivastava,Ruslan Salakhutdinov.Journal of Machine Learning Research . 2014 (1)

← 1 2 3 →