语音识别中说话人自适应技术的研究与实现

被引：0

作者：

崔双喜

机构：

[1] 燕山大学

关键词：

语音识别; 说话人自适应; 最大后验概率; 特征语音; 综合自适应;

D O I：

暂无

年度学位：

2006

学位类型：

硕士

导师：

朴春俊;

摘要：

虽然非特定人语音识别系统达到了令人满意的性能,但在实际应用时,由于说话人的改变通常会使系统性能显著下降。当遇到特殊口音的说话人时,系统的误识率甚至更大。语音识别要走向实用,就必须克服这个鲁棒性问题。因此,说话人自适应技术的意义非常重要。本文从说话人自适应技术入手讨论了语音自适应的各种方法。通过对说话人引起的声学差异的讨论,我们分析和实现了两种说话人自适应方法:最大后验概率(Maximum a Posteriori, MAP)方法和特征语音(Eigenvoice, EV)方法。实验证明这两种自适应方法对说话人自适应有很好的效果。在此基础上本文提出了一种适合强健语音的综合自适应方法。它是在MAP方法中引入一个EV模块,这种新方法成功地结合了MAP和EV两种方法的优点,弥补它们的的缺点。EV方法(属于快速说话人自适应方法)在自适应数据很少时性能优于MAP方法,但随着数据的增加,由于很强的约束强加于它的模型假设,其性能难于改善;而MAP方法给出了结合先验知识和自适应数据的最优解,有良好的渐进性,但自适应数据较少时性能较差。最后,本文通过对汉语数字的识别实验实现了这三种说话人自适应技术。从识别实验中可以看出,在自适应数据较少时,EV方法识别效果较好,而随着自适应数据的增加,MAP方法显示了其优越性。而我们提出的结合这两种方法的综合自适应方法,即使在自适应数据比较少的情况下也取得了很好的效果,这种新方法能够有效的克服说话人差异对识别系统的影响,适合强健语音识别系统的要求。

引用

页数：85

共 12 条

[1]

语音识别技术的研究及基本实现 [D].