汉语统计语言模型的N值分析

被引:6
作者
张树武
黄泰翼
机构
[1] 中科院自动化所模式识别实验室
关键词
计算语言学,语言模型,语音识别;
D O I
暂无
中图分类号
H087 [数理语言学];
学科分类号
摘要
N元语言模型(n-gram)作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等)中已得到广泛的应用。但是,具体N取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N元语言模型中N值的选择。并得出结论:对于基于真实词的汉语N元语言模型,N的取值范围应介于3至6之间,且N=4为较优。这一结论将有助于汉语统计语言处理的发展。
引用
收藏
页码:36 / 42
页数:7
相关论文
empty
未找到相关数据