汉语统计语言模型的N值分析

被引：6

作者：

张树武

黄泰翼

机构：

[1] 中科院自动化所模式识别实验室

来源：

中文信息学报 | 1998年 / 01期

关键词：

计算语言学,语言模型,语音识别;

D O I：

暂无

中图分类号：

H087 [数理语言学];

学科分类号：

摘要：

Ｎ元语言模型（ｎ－ｇｒａｍ）作为统计语言处理的主要方法，目前在汉语语言处理（词性标注、字符识别、语音识别等）中已得到广泛的应用。但是，具体Ｎ取何值为较优，目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发，综合比较和分析了基于汉语词的Ｎ元语言模型中Ｎ值的选择。并得出结论：对于基于真实词的汉语Ｎ元语言模型，Ｎ的取值范围应介于３至６之间，且Ｎ＝４为较优。这一结论将有助于汉语统计语言处理的发展。

引用

页码：36 / 42

页数：7