主题爬虫的搜索策略研究

被引:26
作者
刘汉兴
刘财兴
机构
[1] 华南农业大学信息学院
关键词
主题爬虫; 搜索策略; 页面评价; 搜索引擎; 优化;
D O I
10.16208/j.issn1000-7024.2008.12.035
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
主题爬虫收集主题相关信息时,需要评价网页的主题相关度,并优先爬取相关度较高的网页,在决定了搜索路径的同时也决定了主题爬虫的搜索效率。针对不同的网页评价算法,对现有的主题爬虫的搜索策略进行分类,指出了各类搜索策略的特点和优缺点,总结了能够提高主题爬虫搜索效率的几方面内容。
引用
收藏
页码:3160 / 3162+3166 +3166
页数:4
相关论文
共 8 条
[1]   一种改进的主题网络蜘蛛搜索算法 [J].
林海霞 ;
原福永 ;
陈金森 ;
刘俊峰 .
计算机工程与应用, 2007, (10) :174-176
[2]   基于概念的文本过滤模型 [J].
赵丰年 ;
刘林 ;
商建云 .
计算机工程与应用 , 2006, (04) :186-188
[3]   Deep Web爬虫研究与设计 [J].
郑冬冬 ;
赵朋朋 ;
崔志明 .
清华大学学报(自然科学版), 2005, (S1) :1896-1902
[4]   网络蜘蛛搜索策略比较研究 [J].
李学勇 ;
欧阳柳波 ;
李国徽 ;
钟敏娟 ;
不详 .
计算机工程与应用 , 2004, (04) :128-131
[5]   Ontology研究综述 [J].
邓志鸿 ;
唐世渭 ;
张铭 ;
杨冬青 ;
陈捷 .
北京大学学报(自然科学版), 2002, (05) :730-738
[6]   基于概念空间的文本检索系统 [J].
郑毅 ;
吴斌 ;
史忠植 ;
不详 .
计算机工程与应用 , 2002, (12) :67-69+190
[7]   A general evaluation framework for topical crawlers [J].
Srinivasan, P ;
Menczer, F ;
Pant, G .
INFORMATION RETRIEVAL, 2005, 8 (03) :417-447
[8]  
Topical web crawlers[J] . Filippo Menczer,Gautam Pant,Padmini Srinivasan.ACM Transactions on Internet Technology (TOIT) . 2004 (4)