多模态深度学习综述

被引:35
作者
孙影影
贾振堂
朱昊宇
机构
[1] 上海电力大学电子与信息工程学院
关键词
多模态学习; 多模态应用; 多模态融合; 共享表示空间;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
模态是指人接收信息的方式,包括听觉、视觉、嗅觉、触觉等多种方式。多模态学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。多模态学习的目的是建立能够处理和关联来自多种模式信息的模型,它是一个充满活力的多学科领域,具有日益重要和巨大的潜力。目前比较热门的研究方向是图像、视频、音频、文本之间的多模态学习。着重介绍了多模态在视听语音识别、图文情感分析、协同标注等实际层面的应用,以及在匹配和分类、对齐表示学习等核心层面的应用,并针对多模态学习的核心问题:匹配和分类、对齐表示学习方面给出了说明。对多模态学习中常用的数据集进行了介绍,并展望了未来多模态学习的发展趋势。
引用
收藏
页码:1 / 10
页数:10
相关论文
共 21 条
[1]   多模态深度学习综述 [J].
刘建伟 ;
丁熙浩 ;
罗雄麟 .
计算机应用研究, 2020, 37 (06) :1601-1614
[2]   特征金字塔融合的多模态行人检测算法 [J].
童靖然 ;
毛力 ;
孙俊 .
计算机工程与应用, 2019, 55 (19) :214-222
[3]   Interactive System for Video Summarization Based on Multimodal Fusion [J].
Zheng Li ;
Xiaobing Du ;
Cuixia Ma ;
Yanfeng Li ;
Hongan Wang .
Journal of Beijing Institute of Technology, 2019, 28 (01) :27-34
[4]   基于浅三维稠密网的多模态手势识别算法 [J].
邓智方 ;
袁家政 ;
刘宏哲 ;
原春锋 ;
张宏源 .
计算机工程与应用, 2019, (19) :166-172
[5]   改进的卷积神经网络图片分类识别方法 [J].
闫河 ;
王鹏 ;
董莺艳 ;
罗成 ;
李焕 .
计算机应用与软件, 2018, 35 (12) :193-198
[6]   基于多模态特征的医学图像聚类方法 [J].
王保加 ;
潘海为 ;
谢晓芹 ;
张志强 ;
冯晓宁 .
计算机科学与探索, 2018, (03) :411-422
[7]   基于多注意力卷积神经网络的特定目标情感分析 [J].
梁斌 ;
刘全 ;
徐进 ;
周倩 ;
章鹏 .
计算机研究与发展, 2017, 54 (08) :1724-1735
[8]   基于转移变量的图文融合微博情感分析 [J].
邓佩 ;
谭长庚 .
计算机应用研究, 2018, 35 (07) :2038-2041
[9]   深度递归的层次化机器翻译模型 [J].
刘宇鹏 ;
马春光 ;
张亚楠 .
计算机学报, 2017, 40 (04) :861-871
[10]   多模态图像配准的梯度一致性算子 [J].
闫利 ;
胡修兵 ;
陈长军 ;
马振玲 .
武汉大学学报(信息科学版), 2013, 38 (08) :969-972