基于遗传算法的主题爬虫策略

被引:16
作者
刘国靖 [1 ]
康丽 [1 ]
罗长寿 [2 ]
机构
[1] 中国农业大学信息与电气工程学院
[2] 北京市农林科学院农业科技信息研究所
基金
北京市自然科学基金;
关键词
主题爬虫; 遗传算法; 主题相关度; 搜索引擎;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对目前主题搜索策略的不足,通过改进遗传算子提出了一种新的主题爬虫策略,即通过变异操作引入新的URL扩大搜索范围;通过交叉操作产生大量的URL;通过选择操作选出适应度高的个体作为下一代的种子。实验结果表明,基于遗传算法的主体搜索策略GA与BFS和OPS相比,爬虫策略取网页中的主体相关网页数量多,在合理选择种子集合时,能抓取大量的主体相关度高的网页。
引用
收藏
页码:172 / 174+179 +179
页数:4
相关论文
共 8 条
  • [1] 主题搜索ROBOT综合爬行策略的研究[J].吴安清,张颖江,涂军. 武汉理工大学学报.2006(02)
  • [2] 专业搜索引擎搜索策略综述[J].欧阳柳波,李学勇,李国徽,王鑫. 计算机工程.2004(13)
  • [3] Web超链分析算法研究[J].朱炜,王超,李俊,潘金贵. 计算机科学.2003(09)
  • [4] 基于内容过滤的个性化搜索算法[J].曾春,邢春晓,周立柱. 软件学报.2003(05)
  • [5] 面向主题的网页搜索系统[J].宋聚平,王永成,尹中航,滕伟. 上海交通大学学报.2003(03)
  • [6] 基于遗传算法的定题信息搜索策略[J].许欢庆,王永成,孙强. 中文信息学报.2003(01)
  • [7] Theshark-searchalgorithm.Anapplication:tailoredWebsitemapping[J].MichaelHersovici,MichalJacovi,YoelleS.Maarek,DanPelleg,MenachemShtalhaim,SigalitUr. ComputerNetworksandISDNSystems.1998(1)
  • [8] Anintelligentpersonalspider(agent)fordynamicInternet/Intranetsearching[J].ChenHsinchun,ChungYi-Ming,MarshallRamsey,ChristopherC.Yang. DecisionSupportSystems.1998(1)