虽然非特定人语音识别系统达到了令人满意的性能,但在实际应用时,由于说话人的改变通常会使系统性能显著下降。当遇到特殊口音的说话人时,系统的误识率甚至更大。语音识别要走向实用,就必须克服这个鲁棒性问题。因此,说话人自适应技术的意义非常重要。
本文从说话人自适应技术入手讨论了语音自适应的各种方法。通过对说话人引起的声学差异的讨论,我们分析和实现了两种说话人自适应方法:最大后验概率(Maximum a Posteriori, MAP)方法和特征语音(Eigenvoice, EV)方法。实验证明这两种自适应方法对说话人自适应有很好的效果。
在此基础上本文提出了一种适合强健语音的综合自适应方法。它是在MAP方法中引入一个EV模块,这种新方法成功地结合了MAP和EV两种方法的优点,弥补它们的的缺点。EV方法(属于快速说话人自适应方法)在自适应数据很少时性能优于MAP方法,但随着数据的增加,由于很强的约束强加于它的模型假设,其性能难于改善;而MAP方法给出了结合先验知识和自适应数据的最优解,有良好的渐进性,但自适应数据较少时性能较差。
最后,本文通过对汉语数字的识别实验实现了这三种说话人自适应技术。从识别实验中可以看出,在自适应数据较少时,EV方法识别效果较好,而随着自适应数据的增加,MAP方法显示了其优越性。而我们提出的结合这两种方法的综合自适应方法,即使在自适应数据比较少的情况下也取得了很好的效果,这种新方法能够有效的克服说话人差异对识别系统的影响,适合强健语音识别系统的要求。