网络爬虫的优化策略探略

被引:18
作者
李志义
机构
[1] 华南师范大学经济与管理学院
关键词
网络爬虫; 优化策略; 搜索引擎;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。
引用
收藏
页码:31 / 35
页数:5
相关论文
共 11 条
[1]  
面向垂直搜索引擎的主题爬行技术研究.[D].陈竹敏.山东大学.2008, 05
[2]   网络爬虫技术的研究 [J].
孙立伟 ;
何国辉 ;
吴礼发 .
电脑知识与技术, 2010, 6 (15) :4112-4115
[3]   一种基于文本内容的HITS改进算法 [J].
郭鸿 .
计算机系统应用, 2009, 18 (09) :38-40+131
[4]   高性能网络爬虫:研究综述 [J].
周德懋 ;
李舟军 .
计算机科学, 2009, 36 (08) :26-29+53
[5]   基于PageRank的页面排序改进算法 [J].
王冬 ;
雷景生 ;
李壮 .
计算机工程与设计, 2008, (22) :5921-5923+5927
[6]   基于本体的主题爬虫的设计与实现 [J].
杨贞 ;
杜习英 .
科技情报开发与经济, 2008, (02) :73-75
[7]   主题网络爬虫研究综述 [J].
刘金红 ;
陆余良 .
计算机应用研究, 2007, (10) :26-29+47
[8]   一种使用分布式技术的搜索引擎 [J].
姚树宇 ;
赵少东 .
计算机应用与软件, 2005, (10) :129-131
[9]   聚焦爬虫技术研究综述 [J].
周立柱 ;
林玲 .
计算机应用, 2005, (09) :1965-1969
[10]   Independent shape component-based human activity recognition via Hidden Markov Model [J].
Uddin, M. Zia ;
Lee, J. J. ;
Kim, T. -S. .
APPLIED INTELLIGENCE, 2010, 33 (02) :193-206