汉语连续语音数据库的语料设计

被引:15
作者
祖漪清
机构
[1] 中国社会科学院语言研究所!北京,
关键词
三音子; 双音; 双条落; 语音单元; 连续语音识别; 语音数据库;
D O I
10.15949/j.cnki.0371-0025.1999.03.002
中图分类号
H08 [应用语言学];
学科分类号
050211 ;
摘要
质量优良的语音识别系统或语音合成系统需要高质量的、在语音学和语言学知识指导下设计的科学合理简洁有效的连续语音数据库的支持.在目前阶段,汉语语音数据库应限制在朗读言语(readspeech)的音段方面。为了描写语流中的音变现象,考虑如下语音单元:(1)不计声调的音节(401个)。(2)音节间的双音子415个。(3)音节间的三音子3035个,这是根据37个基本音子,利用音节间共振峰过渡的研究结果,按规则规纳的结果.(4)所有音节间过渡段的韵母一声母结构,采用和同三音子相同的归并方法,共781个.为了增加不同的韵律结构,并考虑语音识别系统的后处理,语料还包括汉语的17类基本句型.选用1993、1994两年的“人民日报”、“百家报刊精选”及若干电视剧本、词典词库作为语料库的原始语料,从中选出2185个句子和388个短语作为朗读语料,它们覆盖了99.8%个无调音节,100%的双音子,99.6%的三音子,以及17类句型。
引用
收藏
页码:236 / 247
页数:12
相关论文
共 2 条
[1]   汉语句型自动分析和分布统计算法与策略的研究 [J].
罗振声,郑碧霞 .
中文信息学报, 1994, (02) :1-19
[2]  
言语科学与言语技术[M]. 商务印书馆[瑞典]方特(Fant,G·)[瑞典]高奋(Gauffin,Jan) 著, 1994