基于Solr的分布式全文检索系统的研究与实现

被引:24
作者
李戴维
李宁
机构
[1] 华北计算技术研究所信息技术与应用系统部
关键词
全文检索; Solr; 分布式; Zookeeper;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。
引用
收藏
页码:171 / 176
页数:6
相关论文
共 7 条
[1]   计算机中文分词技术的应用 [J].
庄新妍 .
呼伦贝尔学院学报, 2010, 18 (03) :70-74+90
[2]   中文分词技术的研究现状与困难 [J].
孙铁利 ;
刘延吉 .
信息技术, 2009, 33 (07) :187-189+192
[3]   基于开源全文检索系统Solr的OPAC分面浏览 [J].
陈波 .
现代图书情报技术, 2007, (11) :72-75
[4]   中文搜索引擎现状与展望 [J].
都云程 ;
卢献华 .
中文信息学报, 1999, (03) :62-66
[5]  
自己动手写网络爬虫.[M].罗刚; 王振东; 编著.清华大学出版社.2010,
[6]  
Lucene+Nutch搜索引擎开发.[M].王学松; 编著.人民邮电出版社.2008,
[7]  
基于Solr的搜索引擎的设计与实现.[D].王小森.北京邮电大学.2011, 09