一种改进的最大匹配中文分词算法

被引:42
作者
闻玉彪
贾时银
邓世昆
李远方
机构
[1] 云南大学信息学院
关键词
最大匹配; 索引; 词库; 分词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
最大匹配算法包括正向最大匹配和逆向最大匹配两种算法,是中文分词领域的基础性算法,目前被广泛应用于众多领域。文中在详细分析了最大匹配算法的优缺点的基础上,提出了一种改进的最大匹配分词算法。改进算法在分词前先对词库进行了规范化预处理,分词时由汉字检索到该字开头的词组,再按词组长度由长到短的顺序使用传统最大匹配算法检索词库。目的是解决传统方法匹配效率低下和不能切分长词的问题。经算法分析结果表明,改进的算法较传统的最大匹配算法高效,分词能力更强。
引用
收藏
页码:92 / 94+98 +98
页数:4
相关论文
共 11 条
[1]
基于双字词的动态最大匹配分词算法的研究 [J].
宋国柱 ;
陈俊杰 .
太原科技大学学报, 2009, 30 (03) :199-202
[2]
中文分词算法概述 [J].
龙树全 ;
赵正文 ;
唐华 .
电脑知识与技术, 2009, 5 (10) :2605-2607
[3]
中文分词切分技术研究 [J].
徐飞 ;
孙劲光 .
计算机工程与科学, 2008, (05) :126-128
[4]
中文分词技术.[J].李淑英;.科技信息(科学教研).2007, 36
[5]
一种改进的增字最大匹配算法 [J].
金在全 ;
赵照 ;
杜秀全 ;
张东 .
科学技术与工程, 2007, (18) :4761-4764
[6]
汉语自动分词的研究现状与困难 [J].
张春霞 ;
郝天永 .
系统仿真学报, 2005, (01) :138-143+147
[7]
汉语自动分词研究展望 [J].
文庭孝 ;
邱均平 ;
侯经川 .
现代图书情报技术, 2004, (07) :6-10
[8]
国内中文分词技术研究新进展 [J].
冯书晓 ;
徐新 ;
杨春梅 .
情报杂志, 2002, (11) :29-30
[9]
汉语自动分词研究评述 [J].
孙茂松 ;
邹嘉彦 .
当代语言学, 2001, (01) :22-32+77
[10]
汉语自动分词研究的现状与新思维 [J].
尹锋 .
现代图书情报技术, 1998, (04)