基于HMM和ANN的汉语语音识别

被引:0
作者
陈立伟
机构
[1] 哈尔滨工程大学
关键词
语音识别; 特征提取; 神经网络; 遗传算法; 隐马尔可夫模型;
D O I
暂无
年度学位
2005
学位类型
博士
导师
摘要
语音识别是一门内涵丰富、应用广泛的技术,它的实用性和趣味性使得人们对它有着迫切的应用需求。语音识别正在办公或商业系统的数据库语音查询、工业生产部门的语声控制、电话与电信系统的自动拨号以及医疗和卫生等领域发挥重要的作用,并且极有可能成为下一代操作系统和应用程序的用户界面。 虽然语音识别已经取得巨大的成就,形成了隐马尔可夫模型、矢量量化、动态时间规正等有效技术,出现了一些比较成功的语音识别系统,但是面临实用化时还是存在一些问题。例如:语音识别系统的适应性差,对环境依赖性强,在某种环境下建立的语音识别系统只能在这种环境下应用,否则系统性能将急剧下降,而且全世界共有上千种语言,每种语言又有许多种方言,随着环境的改变,识别系统的性能也必然会下降。本文着眼于汉语语音识别系统实用中所面临的主要问题,以提高识别率和提高识别系统的抗噪声能力为目的,研究汉语语音识别实用化理论和关键技术。本文用大量的实验和数据来证实了所提出方法的有效性。主要研究工作和取得的成果如下: 1.介绍语音识别系统中涉及到的基本概念及原理,分析一般语音识别系统的结构及所用到的各种理论技术,包括语音识别单元的选取、特征参数提取、模式匹配及模型训练等技术。另外,对语音识别系统的发展史、研究现状、分类方式以及目前所面临的问题等也进行了阐述。 2.系统地研究了语音识别各种主要特征参数的提取方法,特别分析和研究了反映语音倒谱特征的线性预测倒谱系数(LPCC)和美尔频率倒谱系数(MFCC)的提取方法。并且为了反映特征参数的动态特性,本文还提出采用LPCC、MFCC一阶、二阶差分参数来进行语音识别的方法;本文还研究了线谱频率参数(LSF)及其快速求解算法,快速算法所需存储空间更小、各种代数运算次数更少、软件实现更简单。 3.针对噪声环境下的语音识别,本文提出了一种将连续概率密度隐马尔可夫模型(CDHMM)与自组织特征映射神经网络(SOFM)相结合而构成
引用
收藏
页数:131
共 14 条
[1]
离散时间语音信号处理.[M].(美)ThomasF.Quatieri著;赵胜辉等译;.电子工业出版社.2004,
[2]
语音信号处理.[M].赵力编著;.机械工业出版社.2003,
[3]
人工神经网络原理及仿真实例.[M].高隽编著;.机械工业出版社.2003,
[4]
现代语音技术基础与应用.[M].蔡莲红等编著;.清华大学出版社.2003,
[5]
MATLAB扩展编程.[M].何强;何英编著;.清华大学出版社.2002,
[6]
语音信号处理.[M].易克初等编著;.国防工业出版社.2000,
[7]
语音信号数字处理.[M].杨行峻;迟惠生等编著;.电子工业出版社.1995,
[8]
用于抗噪声说话人识别的直接倒谱加权GMM模型 [J].
吴尊敬 ;
曹志刚 .
数据采集与处理, 2005, (01) :83-87
[9]
基于DTW的语音识别和说话人识别的特征选择 [J].
刘敬伟 ;
徐美芝 ;
郑忠国 ;
程乾生 .
模式识别与人工智能, 2005, 18 (01) :50-54
[10]
采用帧概率变换的与文本无关说话人识别系统的实现 [J].
戴红霞 ;
赵力 .
电声技术, 2004, (09) :40-42