共 5 条
基于Lucene的中文全文检索系统的研究与设计
被引:7
作者:
索红光
孙鑫
机构:
[1] 中国石油大学(华东)计算机与通信工程学院
来源:
关键词:
全文检索;
网页正文提取;
中文分词模块;
索引文档预处理;
文本聚类;
D O I:
10.16208/j.issn1000-7024.2008.19.042
中图分类号:
TP391.3 [检索机];
学科分类号:
摘要:
提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。
引用
收藏
页码:5083 / 5086
页数:4
相关论文