具有三级索引词库结构的中文分词方法研究

被引:16
作者
肖红
许少华
李欣
机构
[1] 大庆石油学院计算机科学系
关键词
中文切词; 正向最大匹配; 词库; 索引密度; 全文检索;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
提出了一种分组并具有三级索引结构的词库组织体系,给出了合适的索引密度间隔;针对系统基本词库的扩充问题,考虑了一种基于词频统计并具有过滤功能的关键词自动抽取和小词条添加方法。大量仿真实验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。
引用
收藏
页码:49 / 51
页数:3
相关论文
共 4 条
[1]   中文信息检索引擎中的分词与检索技术 [J].
吴栋 ;
滕育平 .
计算机应用, 2004, (07) :128-131
[2]   一种规则与统计相结合的汉语分词方法 [J].
赵伟 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
计算机应用研究, 2004, (03) :23-25
[3]   基于中文文本分类的分词方法研究 [J].
湛燕 ;
陈昊 ;
袁方 ;
王熙照 ;
不详 .
计算机工程与应用 , 2003, (23) :87-88+91
[4]   一种中文分词词典新机制——双字哈希机制 [J].
李庆虎 ;
陈玉健 ;
孙家广 .
中文信息学报, 2003, (04) :13-18