基于视听分层模型的实时爆炸场景识别

被引:2
作者
庄越挺
傅正钢
叶朝阳
吴飞
机构
[1] 浙江大学人工智能研究所
[2] 浙江大学人工智能研究所 杭州
[3] 杭州
关键词
压缩域特征; 分层支持向量机; 视听事件;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
提出在实时环境下使用基于听觉和视觉的分层模型对MPEG多媒体数据流中的“爆炸”场景在压缩域进行识别的算法 首先用一个粗分支持向量机把爆炸和类似爆炸的音频从别的音频中识别出来 ,然后再分别用几个精细支持向量机把爆炸和类似爆炸的音频区分开 ,由此得到音频爆炸备选场景 由于大多数爆炸场景均伴随剧烈的视觉突变 ,因此对得到的音频爆炸备选场景再判断其对应的视觉特征是否发生了变化 ,得到最后的识别结果
引用
收藏
页码:90 / 97+154 +154
页数:9
相关论文
共 1 条
[1]   基于支持向量机的视频字幕自动定位与提取 [J].
庄越挺 ;
刘骏伟 ;
吴飞 ;
潘云鹤 ;
张引 .
计算机辅助设计与图形学学报, 2002, (08) :750-753+771