共 4 条
基于双数组Trie树的中文分词词典算法优化研究
被引:7
作者:
杨文川
刘健
于淼
机构:
[1] 北京邮电大学计算机学院
来源:
关键词:
双数组;
Trie树;
时间复杂度;
分词词典;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
基于双数组Trie树的中文分词词典具有较高的查找效率,但其插入时间复杂度较高。为此提出了一种基于双数组Trie树结构的改进算法iDAT,在原始词典初始化时优先处理分支多的节点,并在初始化之后对base数组中的空序列的下标值做Hash,Hash表中存放空序列之前的所有空序列个数之和,而后运用iDAT算法进行插入。本算法借鉴了单模式匹配的Sunday算法中的跳跃思想,在适当增加空间开销的基础上,降低了Trie树在动态插入过程中的平均时间复杂度,在实际操作过程中有着良好的性能。
引用
收藏
页码:127 / 131
页数:5
相关论文