双数组Trie树算法优化及其应用研究

被引:28
作者
王思力
张华平
王斌
机构
[1] 中国科学院计算技术研究所
关键词
计算机应用; 中文信息处理; 双数组; Trie树; 词典; 分词;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
本文对双数组Trie树(Doub le-Array Trie)算法提出了一种优化策略,即在采用Trie树构造数组的过程中,优先处理分支结点数更多的结点。这种优化策略可以在保证该算法数据查找效率不变的同时,进一步减少数据稀疏,提高空间利用率。我们基于该优化算法实现了一个词典管理程序,并与利用其他索引机制的词典进行了实验对比。实验结果表明,利用优化的双数组Trie树算法的词典不仅在查询速度上优于用其他索引机制的词典,而且存储数据的空间占用也比较小。
引用
收藏
页码:24 / 30
页数:7
相关论文
共 6 条
[1]   一种改进的基于PATRICIA树的汉语自动分词词典机制 [J].
马哲 ;
姚敏 .
华南理工大学学报(自然科学版), 2004, (S1) :28-31
[2]   基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[3]   一种中文分词词典新机制——双字哈希机制 [J].
李庆虎 ;
陈玉健 ;
孙家广 .
中文信息学报, 2003, (04) :13-18
[4]   基于PATRICIA tree的汉语自动分词词典机制 [J].
杨文峰 ;
陈光英 ;
李星 .
中文信息学报, 2001, (03) :44-49
[5]   汉语自动分词词典机制的实验研究 [J].
孙茂松 ;
左正平 ;
黄昌宁 .
中文信息学报, 2000, (01) :1-6
[6]   中文切分词典的最大匹配索引法 [J].
路志英 ;
林孔元 ;
郭祺 ;
段广玉 .
天津大学学报, 1999, (05) :599-603