垂直搜索引擎中聚焦爬虫技术的研究

被引:0
作者
刘丽杰
机构
[1] 哈尔滨工程大学
关键词
垂直搜索引擎; 聚焦爬虫; 相关度计算; 启发式搜索; 量子进化算法;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
随着互联网的高速发展,多元化信息呈几何级数增长,用户对于信息检索服务也提出了越来越高的要求,尤其是在检索结果的专业性和准确性上,而通用搜索引擎的检索能力无法满足这种需求,垂直搜索引擎应运而生。它是一种全新的搜索服务模式,是为某一特定专业、人群或主题的需求提供服务的。针对通用搜索引擎而言,垂直搜索引擎具有检索更精确、专注、具体和深入的特点。 聚焦爬虫作为垂直搜索引擎的核心部件,它采用何种搜索策略检索Web资源会直接影响到垂直搜索引擎的优劣,因此近年来聚焦爬虫已成为垂直搜索引擎研究中的热点领域之一。论文详细的阐述了垂直搜索引擎和聚焦爬虫的相关概念、工作原理及主要关键技术,在仔细研究搜索引擎中现有经典的搜索策略、主题相关性判别算法及页面的分布特征的基础上,提出基于主题相关度和页面重要性相结合的立即价值来判别页面主题相关性,并采用自适应免疫算法指导聚焦爬虫的爬行策略,取得了较好的实际效果。同时针对基于单一价值评价的聚焦爬虫搜索策略存在主题漂移等不足,提出一种基于量子进化算法(QBEA)的智能爬行算法,该算法充分结合网页在互联网上的分布特点,利用立即价值和未来价值两类评价标准的优势,根据聚焦爬虫实际运行过程中的搜索情况,在线调整这两种标准在综合价值中的比重,通过实验仿真结果可知,量子进化算法获得较高的页面查全率和信息查准率,能较好地解决现存问题,具有一定的自适应性。 最后,针对实际应用需要,将所提聚焦爬虫搜索策略应用到实际系统中,并在系统中引入了Oracle SES技术,运行结果表明本文的工作是有效的,具有一定的创新性和实际应用价值。
引用
收藏
页数:61
共 28 条
[1]
基于蚁群算法的主题爬虫技术研究与实现 [D]. 
崔金国 .
成都理工大学,
2010
[2]
智能垂直搜索引擎的研究与设计 [D]. 
黄胜根 .
重庆大学,
2010
[3]
基于垂直搜索引擎的主题爬虫算法的研究 [D]. 
陈可钦 .
中南林业科技大学,
2009
[4]
主题爬虫搜索策略研究 [D]. 
陈丛丛 .
山东大学,
2009
[5]
基于主题策略的网络爬行器算法研究 [D]. 
蔡阳波 .
重庆大学,
2008
[6]
基于领域本体的网页信息采集与检索研究 [D]. 
吕玉鹏 .
大连理工大学,
2008
[7]
垂直搜索引擎数据采集技术的研究与实现 [D]. 
海涛 .
华北电力大学(北京),
2008
[8]
垂直搜索引擎的研究与实现 [D]. 
肖亮 .
北京交通大学,
2008
[9]
垂直搜索引擎主题特征提取及相关度算法研究 [D]. 
段一飞 .
长安大学,
2007
[10]
垂直搜索引擎若干关键技术的研究 [D]. 
王晓伟 .
浙江大学,
2007