学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
汉语统计语言模型的N值分析
被引:6
作者
:
张树武
论文数:
0
引用数:
0
h-index:
0
机构:
中科院自动化所模式识别实验室
张树武
论文数:
引用数:
h-index:
机构:
黄泰翼
机构
:
[1]
中科院自动化所模式识别实验室
来源
:
中文信息学报
|
1998年
/ 01期
关键词
:
计算语言学,语言模型,语音识别;
D O I
:
暂无
中图分类号
:
H087 [数理语言学];
学科分类号
:
摘要
:
N元语言模型(n-gram)作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等)中已得到广泛的应用。但是,具体N取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N元语言模型中N值的选择。并得出结论:对于基于真实词的汉语N元语言模型,N的取值范围应介于3至6之间,且N=4为较优。这一结论将有助于汉语统计语言处理的发展。
引用
收藏
页码:36 / 42
页数:7
相关论文
未找到相关数据
未找到相关数据