一种中文分词词典新机制——双字哈希机制

被引:107
作者
李庆虎
陈玉健
孙家广
机构
[1] 清华大学计算机系
关键词
计算机应用; 中文信息处理; 中文分词; 双字哈希;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。
引用
收藏
页码:13 / 18
页数:6
相关论文
共 4 条