随着互联网的高速发展,多元化信息呈几何级数增长,用户对于信息检索服务也提出了越来越高的要求,尤其是在检索结果的专业性和准确性上,而通用搜索引擎的检索能力无法满足这种需求,垂直搜索引擎应运而生。它是一种全新的搜索服务模式,是为某一特定专业、人群或主题的需求提供服务的。针对通用搜索引擎而言,垂直搜索引擎具有检索更精确、专注、具体和深入的特点。
聚焦爬虫作为垂直搜索引擎的核心部件,它采用何种搜索策略检索Web资源会直接影响到垂直搜索引擎的优劣,因此近年来聚焦爬虫已成为垂直搜索引擎研究中的热点领域之一。论文详细的阐述了垂直搜索引擎和聚焦爬虫的相关概念、工作原理及主要关键技术,在仔细研究搜索引擎中现有经典的搜索策略、主题相关性判别算法及页面的分布特征的基础上,提出基于主题相关度和页面重要性相结合的立即价值来判别页面主题相关性,并采用自适应免疫算法指导聚焦爬虫的爬行策略,取得了较好的实际效果。同时针对基于单一价值评价的聚焦爬虫搜索策略存在主题漂移等不足,提出一种基于量子进化算法(QBEA)的智能爬行算法,该算法充分结合网页在互联网上的分布特点,利用立即价值和未来价值两类评价标准的优势,根据聚焦爬虫实际运行过程中的搜索情况,在线调整这两种标准在综合价值中的比重,通过实验仿真结果可知,量子进化算法获得较高的页面查全率和信息查准率,能较好地解决现存问题,具有一定的自适应性。
最后,针对实际应用需要,将所提聚焦爬虫搜索策略应用到实际系统中,并在系统中引入了Oracle SES技术,运行结果表明本文的工作是有效的,具有一定的创新性和实际应用价值。