基于Lucene的中文全文检索系统的研究与设计

被引:7
作者
索红光
孙鑫
机构
[1] 中国石油大学(华东)计算机与通信工程学院
关键词
全文检索; 网页正文提取; 中文分词模块; 索引文档预处理; 文本聚类;
D O I
10.16208/j.issn1000-7024.2008.19.042
中图分类号
TP391.3 [检索机];
学科分类号
摘要
提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。
引用
收藏
页码:5083 / 5086
页数:4
相关论文
共 5 条
[1]   校园网信息资源搜索引擎的研究与实现 [J].
胡骏 ;
李星 .
计算机工程与设计, 2006, (24) :4629-4631+4634
[2]   基于Lucene的中文字典分词模块的设计与实现 [J].
向晖 ;
郭一平 ;
王亮 .
现代图书情报技术, 2006, (08) :46-50
[3]   文档聚类综述 [J].
刘远超 ;
王晓龙 ;
徐志明 ;
关毅 .
中文信息学报, 2006, (03) :55-62
[4]   基于Lucene的全文检索系统研究与开发 [J].
郎小伟 ;
王申康 .
计算机工程, 2006, (04) :94-96+99
[5]   基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22