一种改进的汉语分词算法

被引：3

作者：

易丽萍

叶水生

吴喜兰

机构：

[1] 南昌航空工业学院计算机学院

来源：

计算机与现代化 | 2007年 / 02期

关键词：

EM; 分词; 无监督;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着论述了EM算法用于训练分词语言模型的可能性和局限性,为了解决EM算法严重依赖初始化条件的问题,用无监督训练方法建立概率模型,有效地解决了基于EM算法中文分词时可能存在的局部极值问题,提高分词精度。

引用

页码：13 / 15

页数：3

共 4 条

[1] 汉语分词技术综述 [J].

龚汉明 ;

周长胜 .

北京机械工业学院学报, 2004, (03) :52-55+61

[2] 一种基于语词的分词方法 [J].

赵曾贻 ;

陈天娥 ;

朱兰 .

苏州大学学报(自然科学), 2002, (03) :44-48

[3] 基于EM算法的汉语自动分词方法 [J].

李家福 ;

张亚非 .

情报学报, 2002, (03) :269-272

[4]

Applying Machine Learning to Text Segmentation for Information Retrieval[J] . Xiangji Huang,Fuchun Peng,Dale Schuurmans,Nick Cercone,Stephen E. Robertson.Information Retrieval . 2003 (3)

← 1 →