基于双数组Trie树的中文分词词典算法优化研究

被引:7
作者
杨文川
刘健
于淼
机构
[1] 北京邮电大学计算机学院
关键词
双数组; Trie树; 时间复杂度; 分词词典;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
基于双数组Trie树的中文分词词典具有较高的查找效率,但其插入时间复杂度较高。为此提出了一种基于双数组Trie树结构的改进算法iDAT,在原始词典初始化时优先处理分支多的节点,并在初始化之后对base数组中的空序列的下标值做Hash,Hash表中存放空序列之前的所有空序列个数之和,而后运用iDAT算法进行插入。本算法借鉴了单模式匹配的Sunday算法中的跳跃思想,在适当增加空间开销的基础上,降低了Trie树在动态插入过程中的平均时间复杂度,在实际操作过程中有着良好的性能。
引用
收藏
页码:127 / 131
页数:5
相关论文
共 4 条
[1]   基于遗传算法和舍伍德思想的双数组Trie树改进 [J].
王世昆 ;
李绍滋 ;
柯逍 .
计算机工程与应用, 2009, 45 (29) :128-130+152
[2]   双数组Trie树算法优化及其应用研究 [J].
王思力 ;
张华平 ;
王斌 .
中文信息学报, 2006, (05) :24-30
[3]   汉语词典的快速查询算法研究 [J].
李江波 ;
周强 ;
陈祖舜 .
中文信息学报, 2006, (05) :31-39
[4]   全二分最大匹配快速分词算法 [J].
李振星 ;
徐泽平 ;
唐卫清 ;
唐荣锡 .
计算机工程与应用, 2002, (11) :106-109