基于双数组Trie树中文分词研究

被引:16
作者
赵欢
朱红权
机构
[1] 湖南大学计算机与通信学院
关键词
自然语言处理; 双数组; Trie树; 词典; 分词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
对双数组Trie树(Double-Array Trie)分词算法进行了优化:在采用Trie树构造双数组Trie树的过程中,优先处理分支节点多的结点,以减少冲突;构造一个空状态序列;将冲突的结点放入Hash表中,不需要重新分配结点.然后,利用这些方法构造了一个中文分词系统,并与其他几种分词方法进行对比,结果表明,优化后的双数组Trie树插入速度和空间利用率得到了很大提高,且分词查询效率也得到了提高.
引用
收藏
页码:77 / 80
页数:4
相关论文
共 6 条
[1]   双数组Trie树算法优化及其应用研究 [J].
王思力 ;
张华平 ;
王斌 .
中文信息学报, 2006, (05) :24-30
[2]   一种快速汉语分词算法 [J].
温滔 ;
朱巧明 ;
吕强 .
计算机工程, 2004, (19) :119-120+182
[3]   基于PATRICIA tree的汉语自动分词词典机制 [J].
杨文峰 ;
陈光英 ;
李星 .
中文信息学报, 2001, (03) :44-49
[4]   一种汉语分词方法 [J].
吴胜远 .
计算机研究与发展 , 1996, (04) :306-311
[5]  
数据结构[M]. 清华大学出版社 , 殷人昆等编著, 1999
[6]  
An Efficient Digital Search Algorithm by Using a Double-Array Structure .2 Aoe,J. IEEE Transactions on Software Engineering . 1989