一种多模态融合的网络视频相关性度量方法

被引：10

作者：

温有福 ^{[1
,2
]}

贾彩燕 ^{[1
]}

陈智能 ^{[2
]}

机构：

[1] 北京交通大学交通数据分析与数据挖掘北京市重点实验室

[2] 中国科学院自动化研究所数字内容技术与服务研究中心

来源：

智能系统学报 | 2016年 / 11卷 / 03期

关键词：

网络视频; 海量视频; 社会特征; 交互; 多源异构信息; 多模态信息融合; 相关性度量; 视频检索;

D O I：

暂无

中图分类号：

TP391.41 [];

学科分类号：

摘要：

随着网络和多媒体技术的发展,视频分享网站中的网络视频数量呈爆炸式增长。海量视频库中的高精度视频检索、分类、标注等任务成为亟待解决的研究问题。视频间的相关性度量是这些问题所面临的一个共性基础技术。本文从视频视觉内容,视频标题和标签文本,以及视频上传时间、类别、作者3种人与视频交互产生的社会特征等多源异构信息出发,提出一种新颖的多模态融合的网络视频相关性度量方法,并将所获相关性应用到大规模视频检索任务中。You Tube数据上的实验结果显示:相对于传统单一文本特征、单一视觉特征的检索方案,以及文本和视觉特征相融合的检索方案,文本视觉和用户社会特征多模态融合方法表现出更好的性能。

引用

页码：359 / 365

页数：7