基于双层哈希表的中文分词算法优化

被引：3

作者：

习明 ^{[1
]}

王增辉 ^{[1
]}

庄怡 ^{[2
]}

机构：

[1] 吉林农业大学信息技术学院

[2] 武汉纺织大学计算机科学学院

来源：

关键词：

自然语言处理; 中文分词; 最大匹配算法; 双哈希表;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

采用基于词典的正向增字最大匹配算法,分词词典采用改进的双层哈希表加动态数组的数据结构。在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,一定程度上提高了中文分词的速度和效率。

引用

页码：54 / 55

页数：2

共 5 条

[1] 一种高效的中文电子词表数据结构 [J].

陈桂林 ;

王永成 ;

韩客松 ;

王刚 .

[2] 一种中文分词词典新机制——双字哈希机制 [J].

李庆虎 ;

陈玉健 ;

孙家广 .

[3] 基于Lucene的中文字典分词模块的设计与实现 [J].

向晖 ;

郭一平 ;

王亮 .

[4] 基于素数序列的Java哈希表性能优化 [J].

廖名学 ;

范植华 .

[5]

数据结构[M]. - 清华大学出版社 , 严蔚敏, 1992