几种基于词典的中文分词算法评价

被引:4
作者
李丹宁 [1 ]
李丹 [1 ]
王保华 [2 ]
马新强 [2 ]
机构
[1] 贵州科学院
[2] 贵州大学信息工程学院
关键词
中文信息处理; 自动分词; 分词词典; 缓存优化;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统.
引用
收藏
页码:1 / 8
页数:8
相关论文
共 4 条
[1]   一种改进的基于PATRICIA树的汉语自动分词词典机制 [J].
马哲 ;
姚敏 .
华南理工大学学报(自然科学版), 2004, (S1) :28-31
[2]   一种中文分词词典新机制——双字哈希机制 [J].
李庆虎 ;
陈玉健 ;
孙家广 .
中文信息学报, 2003, (04) :13-18
[3]   基于PATRICIA tree的汉语自动分词词典机制 [J].
杨文峰 ;
陈光英 ;
李星 .
中文信息学报, 2001, (03) :44-49
[4]   汉语自动分词词典机制的实验研究 [J].
孙茂松 ;
左正平 ;
黄昌宁 .
中文信息学报, 2000, (01) :1-6