一种基于N-gram模型和机器学习的汉语分词算法

被引:24
作者
吴应良
韦岗
李海洲
机构
[1] 华南理工大学工商管理学院
[2] 华南理工大学电子与通信工程系
[3] 华南理工大学电子与通信工程系 广州
[4] 广州
[5] 广州
基金
广东省自然科学基金;
关键词
汉语分词; N-gram模型; 机器学习; 查准率; 查全率;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。
引用
收藏
页码:1148 / 1153
页数:6
相关论文
共 2 条