面向汽车主题的垂直搜索引擎研究与实现

被引:0
作者
张楠
机构
[1] 西南交通大学
关键词
垂直搜索引擎; 网络爬虫; Lucene; PageRank;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
互联网已经成为一个巨大的海量信息空间,人们在互联网上搜索信息主要利用百度等通用搜索引擎,这类搜索引擎功能已经十分强大,基本可以满足用户的需求,但是当用户搜索一些面向主题的信息时,这类搜索引擎往往显得力不从心。垂直搜索引擎的出现,正是为了解决此类问题。 本文首先介绍了垂直搜索引擎的特点及工作原理,然后详细分析了开源网络爬虫Heritrix的系统结构。在此基础上,提出了设计特定的解析器,解析特定网站,以及扩展Heritrix的链接处理器,抓取特定链接,来实现定制抓取的目的;然后通过消除robots.txt对个别处理器的影响,以及引入哈希算法,实现了高效、多线程抓取的目的。 本文采用Lucene作为全文检索引擎,首先深入剖析了Lucene的系统结构,并详细阐述了Lucene的倒排索引技术和索引结构,然后通过分析Lucene原有排序算法,得知其只考虑网页内容本身,不能反映出网页的重要性的不足,通过引入基于链接分析的PageRank算法,改进了Lucene原有排序算法,排序结果更加符合用户预期。 本文在上述研究的基础上,根据汽车爱好者查询汽车信息的一般要求,建立了一个面向汽车主题的垂直搜索引擎,设计了各个子系统,并实现了改进的爬虫和排序算法。 最后,本文在建立的垂直搜索引擎系统上,首先通过查询实验,验证了垂直搜索引擎相对通用搜索引擎的直观优势,然后通过对改进前后的爬虫抓取网页速度对比,以及对改进后爬虫在不同线程数、不同运行时间的条件下抓取网页速度的分析,验证了改进后的爬虫性能有了较明显的提高,最后通过对比排序算法改进前后的排序结果,验证了改进后的排序算法在符合用户预期查询结果方面,得到了较好的改善。
引用
收藏
页数:92
共 34 条
[1]
Web结构挖掘中PageRank算法研究 [D]. 
范聪贤 .
苏州大学,
2009
[2]
垂直搜索引擎若干关键技术的研究 [D]. 
王晓伟 .
浙江大学,
2007
[3]
基于Lucene面向主题搜索引擎的研究与设计 [D]. 
姜华 .
华东师范大学,
2007
[4]
基于Java的新闻搜索引擎的设计与实现 [D]. 
常晓燕 .
西南交通大学,
2004
[5]
整合Struts+Hibernate+Spring应用开发详解.[M].李刚 ; 编著.清华大学出版社.2007,
[6]
Spring in Action中文版.[M].(美)CraigWalls;(美)RyanBreidenbach著;李磊;程立;周悦虹译;.人民邮电出版社.2006,
[7]
征服Ajax+Lucene构建搜索引擎.[M].李刚;宋伟;邱哲编著;.人民邮电出版社.2006,
[8]
信息检索概论.[M].祁延莉;赵丹群主编;.北京大学出版社.2006,
[9]
Tomcat与Java Web开发技术详解.[M].孙卫琴;李洪成编著;.电子工业出版社.2004,
[10]
MySQL核心编程.[M].(美)LeonAtkinson著;周靖;许青松译;.清华大学出版社.2003,