一种改进的高效分词词典机制

被引:8
作者
王东
陈笑蓉
机构
[1] 贵州大学计算机科学与技术学院
关键词
汉语自动分词; Hash索引算法; 中文信息处理;
D O I
10.15958/j.cnki.gdxbzrb.2007.04.023
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字组成剩余结点数组。基于这种分词词典机制设计的组合Hash索引分词算法使得一字词和二字词查询只须在组合hash索引表中一步完成,从而显著提高查询速度。通过真实语料的对比实验,该算法在不降低精度的前提下,处理速度比整词二分平均提高了13.8倍,比TR IE索引树平均提高了2.7倍。结果表明:组合hash索引分词算法是实用有效的。
引用
收藏
页码:380 / 384+389 +389
页数:6
相关论文
共 8 条