共 4 条
几种基于词典的中文分词算法评价
被引:4
作者:
李丹宁
[1
]
李丹
[1
]
王保华
[2
]
马新强
[2
]
机构:
[1] 贵州科学院
[2] 贵州大学信息工程学院
来源:
关键词:
中文信息处理;
自动分词;
分词词典;
缓存优化;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统.
引用
收藏
页码:1 / 8
页数:8
相关论文