基于镜头及场景上下文的短视频标注方法研究

被引:0
作者
彭太乐
机构
[1] 上海大学
关键词
动态纹理; SIFT特征; 镜头检测; 镜头事件; 视频标注; 上下文; 半监督学习; 多核学习;
D O I
暂无
年度学位
2016
学位类型
博士
导师
摘要
随着数字媒体技术、通信技术及网络技术的飞速发展,以视频为代表的数字媒体信息的数量急剧膨胀。短视频是一类内容庞杂的视频数据,如何在海量短视频数据中寻找到有效信息一直是用户关注的问题,由此产生了视频索引、视频检索等相关应用。视频标注就是解决这些应用的核心环节。目前视频标注已成为数字媒体应用和计算机视觉领域中的一个热点研究课题。从语义的角度,视频可以分割成若干种语义单位。不同的语义单位具有不同的语义内涵,在每个语义层次上均可实现语义标注。本文在对视频结构进行深入分析的基础上,对视频片段进行分割,形成不同的语义单位,并在镜头语义层、场景语义层对短视频进行标注。本文的研究成果与创新点主要有:(1)结合视频帧的全局特征和局部特征,提出了一种新的结合视频动态纹理和SIFT特征的镜头边缘检测方法。该方法首先对相邻两帧图像进行均匀分块,在RGB颜色空间下,计算帧中每个图像块的平均梯度。由所有图像块的平均梯度形成视频动态纹理,比较相邻帧图像的动态纹理,并结合相邻帧SIFT特征的匹配情况来判断镜头的变化。该算法对不同类型的视频数据进行镜头边缘检测,均能取得较高的检测准确率。(2)提出一种基于镜头事件的视频语义标注模型。在分析视频结构的基础上,提取镜头中的运动目标和镜头关键帧的背景颜色特征来表达一个镜头的事件,进一步延伸到场景事件的表达,最终由所有事件的集合来作为视频片段的主题。该模型以结合时序上下文的镜头运动对象和环境背景组成的事件组作为标注结果。该标注模型较好地代表了镜头的语义内涵,提高了视频语义表达的准确度。(3)提出一种基于半监督聚类的视频标注新方法。以镜头事件为单位,用事件组来标注视频。为了降低视频标注对已标注样本的依赖,利用半监督学习思想构造半监督K-means聚类算法,优化目标函数,使得最终的聚类结果既体现类间的低耦合及类内的高聚合,又体现类内局部的数据分布密度。该算法实现了诸如视频等多属性异构数据的聚类,提高了视频标注的准确度。(4)提出一种基于上下文的多核学习视频分类新方法。以传统的词袋模型为基础,根据相邻镜头关键帧之间具有相关性的特点提出了一种用于视频场景分类的模型。首先将视频片段进行分割,提取关键帧,对关键帧图像归一化。接着将关键帧图像作为图像块以时序关系合成新图像,提取新图像的SIFT特征及HSV颜色特征,并将图像的SIFT特征及HSV颜色特征数据映射到希尔伯特空间。通过多核学习,选取合适的核函数组对每个图像进行训练,最终得到分类模型,得到较好的分类效果。上述研究成果可广泛应用于视频分类、视频索引、视频检索、视频内容理解、视频数据管理等诸多领域,具有重要的理论意义和较高的应用价值。
引用
收藏
页数:117
共 42 条
[1]
A divide-and-rule scheme for shot boundary detection based on SIFT [J].
Li J. ;
Ding Y. ;
Shi Y. ;
Li W. .
International Journal of Digital Content Technology and its Applications, 2010, 4 (03) :202-214
[2]
Text-Based Video Content Classification for Online Video-Sharing Sites [J].
Huang, Chunneng ;
Fu, Tianjun ;
Chen, Hsinchun .
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 2010, 61 (05) :891-906
[3]
Simultaneous detection of abrupt cuts and dissolves in videos using support vector machines.[J].Vasileios Chasanis;Aristidis Likas;Nikolaos Galatsanos.Pattern Recognition Letters.2008, 1
[4]
Common visual cues for sports highlights modeling [J].
Bertini, M ;
Del Bimbo, A ;
Nunziati, W .
MULTIMEDIA TOOLS AND APPLICATIONS, 2005, 27 (02) :215-228
[5]
Distinctive image features from scale-invariant keypoints [J].
Lowe, DG .
INTERNATIONAL JOURNAL OF COMPUTER VISION, 2004, 60 (02) :91-110
[6]
Dynamic textures [J].
Doretto, G ;
Chiuso, A ;
Wu, YN ;
Soatto, S .
INTERNATIONAL JOURNAL OF COMPUTER VISION, 2003, 51 (02) :91-109
[7]
Text classification from labeled and unlabeled documents using EM [J].
Nigam, K ;
McCallum, AK ;
Thrun, S ;
Mitchell, T .
MACHINE LEARNING, 2000, 39 (2-3) :103-134
[8]
Informedia Digital Video Library.[J].M. Christel;T. Kanade;M. Mauldin;R. Reddy;M. Sirbu;S. Stevens;H. Wactlar.Communications of the ACM.1995, 4
[9]
改进的SVM在多类目标识别中的应用研究 [D]. 
潘地宏 .
西北工业大学,
2007
[10]
基于上下文的音视频标注研究 [D]. 
钟岑岑 .
北京交通大学,
2014