一种改进的汉语分词算法

被引:3
作者
易丽萍
叶水生
吴喜兰
机构
[1] 南昌航空工业学院计算机学院
关键词
EM; 分词; 无监督;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着论述了EM算法用于训练分词语言模型的可能性和局限性,为了解决EM算法严重依赖初始化条件的问题,用无监督训练方法建立概率模型,有效地解决了基于EM算法中文分词时可能存在的局部极值问题,提高分词精度。
引用
收藏
页码:13 / 15
页数:3
相关论文
共 4 条
[1]   汉语分词技术综述 [J].
龚汉明 ;
周长胜 .
北京机械工业学院学报, 2004, (03) :52-55+61
[2]   一种基于语词的分词方法 [J].
赵曾贻 ;
陈天娥 ;
朱兰 .
苏州大学学报(自然科学), 2002, (03) :44-48
[3]   基于EM算法的汉语自动分词方法 [J].
李家福 ;
张亚非 .
情报学报, 2002, (03) :269-272
[4]  
Applying Machine Learning to Text Segmentation for Information Retrieval[J] . Xiangji Huang,Fuchun Peng,Dale Schuurmans,Nick Cercone,Stephen E. Robertson.Information Retrieval . 2003 (3)