基于遗传算法的聚焦爬虫搜索策略设计与研究

被引:2
作者
陈悦 [1 ]
陈运 [1 ]
杨义先 [2 ]
胡迪 [1 ]
机构
[1] 成都信息工程学院信息安全研究所
[2] 北京邮电大学信息安全中心
关键词
搜索引擎; 搜索策略; 聚焦爬虫; 遗传算法; 自适应;
D O I
10.16836/j.cnki.jcuit.2011.05.010
中图分类号
TP18 [人工智能理论]; TP391.3 [检索机];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
网络爬虫是搜索引擎的重要组成部分。针对目前聚焦爬虫搜索策略的不足,提出了一种新的搜索策略解决方案。在搜索过程中对适应度高于或低于种群平均适应度的个体采用不同的交叉概率和变异概率来扩大爬虫的爬取范围、增加新个体,并通过改进遗传算子,提高聚焦爬虫的搜索效率。实验证明,基于自适应遗传算法的聚焦爬虫在一定程度上解决了传统遗传算法的"早熟"问题,而且能够爬取到更多主题相关的网页和相关度高的网页。
引用
收藏
页码:533 / 537
页数:5
相关论文
共 5 条