多模态深度学习综述

被引:40
作者
刘建伟
丁熙浩
罗雄麟
机构
[1] 中国石油大学(北京)自动化系
关键词
多模态; 深度学习; 多神经网络; 多模态表示; 多模态传译; 多模态融合; 多模态对齐;
D O I
10.19734/j.issn.1001-3695.2018.12.0857
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。
引用
收藏
页码:1601 / 1614
页数:14
相关论文
共 25 条
  • [1] 基于多注意力卷积神经网络的特定目标情感分析
    梁斌
    刘全
    徐进
    周倩
    章鹏
    [J]. 计算机研究与发展, 2017, 54 (08) : 1724 - 1735
  • [2] 深度学习在语音识别中的研究进展综述
    侯一民
    周慧琼
    王政一
    [J]. 计算机应用研究, 2017, 34 (08) : 2241 - 2246
  • [3] 深度递归的层次化机器翻译模型
    刘宇鹏
    马春光
    张亚楠
    [J]. 计算机学报, 2017, 40 (04) : 861 - 871
  • [4] Multimodal Machine Learning: A Survey and Taxonomy
    Baltrusaitis, Tadas
    Ahuja, Chaitanya
    Morency, Louis-Philippe
    [J]. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2019, 41 (02) : 423 - 443
  • [5] Visual question answering: A survey of methods and datasets[J] . Qi Wu,Damien Teney,Peng Wang,Chunhua Shen,Anthony Dick,Anton van den Hengel.Computer Vision and Image Understanding . 2017
  • [6] Deep Visual-Semantic Alignments for Generating Image Descriptions
    Karpathy, Andrej
    Li Fei-Fei
    [J]. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2017, 39 (04) : 664 - 676
  • [7] Long-Term Recurrent Convolutional Networks for Visual Recognition and Description
    Donahue, Jeff
    Hendricks, Lisa Anne
    Rohrbach, Marcus
    Venugopalan, Subhashini
    Guadarrama, Sergio
    Saenko, Kate
    Darrell, Trevor
    [J]. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2017, 39 (04) : 677 - 691
  • [8] ModDrop: Adaptive Multi-Modal Gesture Recognition[J] . Neverova,Natalia,Wolf,Christian,Taylor,Graham,Nebout,Florian.IEEE Transactions on Pattern Analysis and Machine Intelligence . 2016 (8)
  • [9] Multimodal Data Fusion: An Overview of Methods, Challenges, and Prospects[J] . Lahat,Dana,Adali,Tuelay,Jutten,Christian.Proceedings of the IEEE . 2015 (9)
  • [10] Multimodal learning with deep Boltzmann machines[J] . Nitish Srivastava,Ruslan Salakhutdinov.Journal of Machine Learning Research . 2014 (1)