几种基于词典的中文分词算法评价

被引：4

作者：

李丹宁 ^{[1
]}

李丹 ^{[1
]}

王保华 ^{[2
]}

马新强 ^{[2
]}

机构：

[1] 贵州科学院

[2] 贵州大学信息工程学院

来源：

关键词：

中文信息处理; 自动分词; 分词词典; 缓存优化;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统.

引用

页码：1 / 8

页数：8

共 4 条

马哲 ;

姚敏 .

[2] 一种中文分词词典新机制——双字哈希机制 [J].

李庆虎 ;

陈玉健 ;

孙家广 .

[3] 基于PATRICIA tree的汉语自动分词词典机制 [J].

杨文峰 ;

陈光英 ;

李星 .

[4] 汉语自动分词词典机制的实验研究 [J].

孙茂松 ;

左正平 ;

黄昌宁 .