共 2 条
一种中文分词词典新机制——四字哈希机制
被引:16
作者:
张培颖
李村合
机构:
[1] 中国石油大学(华东)计算机与通信工程学院
来源:
关键词:
中文信息处理;
自动分词;
分词词典;
四字哈希;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。
引用
收藏
页码:35 / 36+55+66
+55
页数:4
相关论文