基于深层神经网络的藏语识别

被引:13
作者
袁胜龙
郭武
戴礼荣
机构
[1] 中国科学技术大学电子工程与信息科学系语音及语言信息处理国家工程实验室
关键词
藏语; 连续语音识别; 数据驱动; 深层神经网络(DNN);
D O I
10.16451/j.cnki.issn1003-6059.201503003
中图分类号
TP183 [人工神经网络与计算];
学科分类号
摘要
文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目标模型的初始网络进行模型优化的策略.另外,由于藏语语音学的研究很不完善,人工生成决策树问题集的方式并不可行.针对该问题,文中利用数据驱动的方式自动生成决策树问题集,对三音子隐马尔可夫模型(HMM)进行状态绑定,从而减少需要估计的模型参数.在测试集上,基于混合高斯模型(GMM)声学建模的藏字识别率为30.86%.在基于DNN的声学模型建模中,采用三种大语种数据训练好的DNN网络作为初始网络,并在测试集上验证该方法的有效性,藏字识别正确率达到43.26%.
引用
收藏
页码:209 / 213
页数:5
相关论文
共 3 条
  • [1] 藏语拉萨话大词表连续语音识别声学模型研究
    李冠宇
    孟猛
    [J]. 计算机工程, 2012, 38 (05) : 189 - 191
  • [2] 基于HMM的安多藏语非特定人孤立词语音识别研究
    韩清华
    于洪志
    [J]. 软件导刊, 2010, 9 (07) : 173 - 175
  • [3] 藏语孤立词语音识别系统研究
    姚徐
    李永宏
    单广荣
    于洪志
    [J]. 西北民族大学学报(自然科学版), 2009, 30 (01) : 29 - 36+50