一种基于EM非监督训练的自组织分词歧义解决方案

被引:14
作者
王伟
钟义信
孙建
杨力
机构
[1] 北京邮电大学智能中心!#北京
关键词
EM算法; 分词歧义; 非监督;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 )
引用
收藏
页码:38 / 44
页数:7
相关论文
共 1 条
  • [1] 中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000