基于Lucene的中文倒排索引技术的研究

被引:49
作者
郑榕增
林世平
机构
[1] 福州大学数学与计算机科学学院
关键词
全文检索; 倒排索引; 索引压缩; Lucene;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。
引用
收藏
页码:80 / 83
页数:4
相关论文
共 6 条