利用覆盖歧义检测法和统计语言模型进行汉语自动分词

被引:7
作者
王显芳
杜利民
机构
[1] 中国科学院声学研究所语音交互信息技术研究中心
[2] 中国科学院声学研究所语音交互信息技术研究中心 北京
[3] 北京
关键词
统计语言模型; 覆盖歧义检测法; 自动分词;
D O I
暂无
中图分类号
TP391.12 [];
学科分类号
摘要
该文探讨了利用覆盖歧义检测法和统计语言模型进行汉语自动分词的问题。采用了多次迭代的方法来进行汉语词层面统计语言模型的训练。该方法能够得到更优化的语言模型。该文详细介绍了统计语言模型的训练过程,给出了语言模型复杂度随迭代次数增加而减小的实验结果。还给出了在不同的统计语言模型阶数下切分正确率变化的情况,分析了切分正确率变化的原因。
引用
收藏
页码:1168 / 1173
页数:6
相关论文
共 3 条
[1]   高频最大交集型歧义切分字段在汉语自动分词中的作用 [J].
孙茂松 ;
左正平 ;
邹嘉彦 .
中文信息学报, 1999, (01) :28-35
[2]  
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
[3]  
现代汉语自动分析.[M].陈小荷著;.北京语言文化大学出版社.2000,