汉语语音视位的研究

被引：11

作者：

王志明

蔡莲红

机构：

[1] 清华大学计算机系

[2] 清华大学计算机系北京

[3] 北京

来源：

应用声学 | 2002年 / 03期

基金：

高等学校博士学科点专项科研基金;

关键词：

视位; 面部动画参数; 文本－语音转换系统; 文本－可视语音转换系统;

D O I：

暂无

中图分类号：

TN912.3 [语音信号处理];

学科分类号：

0711 ;

摘要：

MPEG－4首次作为国际标准正式定义了视位(Viseme)的概念,它是指与某一音位相对应的嘴、舌头、下腭等可视发音器官所处的状态。本文通过对汉语发音时各可见部分器官动作和发音规则的研究,将汉语发音分为28个基本静态视位。利用语音信息从AVI文件中自动抽取出这些基本视位图像,从MPEG－4所规定的68个面部动画参数(FAP)中提取出28个来描述这些口形,并实现了部分FAP参数的自动测量。最后,我们给出一个视位研究应用的实例。

引用

页码：29 / 34

页数：6