基于动态贝叶斯网络的音视频联合说话人跟踪

被引：5

作者：

金乃高

殷福亮

陈喆

机构：

[1] 大连理工大学电子与信息工程学院

来源：

自动化学报 | 2008年 / 09期

关键词：

说话人跟踪; 动态贝叶斯网络; 粒子滤波; 麦克风阵列;

D O I：

暂无

中图分类号：

TP391.41 [];

学科分类号：

080203 ;

摘要：

将多传感器信息融合技术用于说话人跟踪问题,提出了一种基于动态贝叶斯网络的音视频联合说话人跟踪方法.在动态贝叶斯网络中,该方法分别采用麦克风阵列声源定位、人脸肤色检测以及音视频互信息最大化三种感知方式获取与说话人位置相关的量测信息;然后采用粒子滤波对这些信息进行融合,通过贝叶斯推理实现说话人的有效跟踪;并运用信息熵理论对三种感知方式进行动态管理,以提高跟踪系统的整体性能.实验结果验证了本文方法的有效性.

引用

页码：1083 / 1089

页数：7

共 5 条

[1] 信息融合中的有关熵理论 [J].

孙即祥 ;

史慧敏 ;

王宏强 .

计算机学报, 2003, (07) :796-801

[2] 基于信息熵的一种传感器管理算法 [J].

刘先省 ;

申石磊 ;

潘泉 ;

张洪才 .

电子学报, 2000, (09) :39-41+22

[3]

Real-Time Automated Video and Audio Capture with Multiple Cameras and Microphones[J] . Ce Wang,Scott Griebel,Michael Brandstein,Bo-June (Paul) Hsu.The Journal of VLSI Signal Processing . 2001 (1)

[4]

Audiovisual arrays for untethered spoken interfaces .2 Wilson K,Rangarajan V,Checks N,Darrell T. Proceedings of the 4th IEEE International Conference on Multimodal In- terfaces . 2002

[5]

Dynamic Bayes net approach to mul- timodal sensor fusion .2 Singhal A,Brown C. Proceedings of SPIE Conference on Sensor Fusion and Decentralized Control in Autonomous Robotic Systems . 1997

← 1 →