共 4 条
具有三级索引词库结构的中文分词方法研究
被引:16
作者:
肖红
许少华
李欣
机构:
[1] 大庆石油学院计算机科学系
来源:
关键词:
中文切词;
正向最大匹配;
词库;
索引密度;
全文检索;
D O I:
暂无
中图分类号:
TP311.13 [];
学科分类号:
1201 ;
摘要:
提出了一种分组并具有三级索引结构的词库组织体系,给出了合适的索引密度间隔;针对系统基本词库的扩充问题,考虑了一种基于词频统计并具有过滤功能的关键词自动抽取和小词条添加方法。大量仿真实验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。
引用
收藏
页码:49 / 51
页数:3
相关论文