汉语语音视位的研究

被引:11
作者
王志明
蔡莲红
机构
[1] 清华大学计算机系
[2] 清华大学计算机系 北京
[3] 北京
基金
高等学校博士学科点专项科研基金;
关键词
视位; 面部动画参数; 文本-语音转换系统; 文本-可视语音转换系统;
D O I
暂无
中图分类号
TN912.3 [语音信号处理];
学科分类号
0711 ;
摘要
MPEG-4首次作为国际标准正式定义了视位(Viseme)的概念,它是指与某一音位相对应的嘴、舌头、下腭等可视发音器官所处的状态。本文通过对汉语发音时各可见部分器官动作和发音规则的研究,将汉语发音分为28个基本静态视位。利用语音信息从AVI文件中自动抽取出这些基本视位图像,从MPEG-4所规定的68个面部动画参数(FAP)中提取出28个来描述这些口形,并实现了部分FAP参数的自动测量。最后,我们给出一个视位研究应用的实例。
引用
收藏
页码:29 / 34
页数:6
相关论文
共 2 条
[1]   一种面向汉语语音识别的口形形状识别方法 [J].
钟晓 ;
周昌乐 ;
俞瑞钊 .
软件学报, 1999, (02) :94-98
[2]   文本驱动的唇动合成系统 [J].
晏洁 .
计算机工程与设计, 1998, (01) :29-32