一种新的主题网络爬虫爬行策略

被引:14
作者
宋海洋
刘晓然
钱海俊
机构
[1] 海军指挥学院信息战研究系
关键词
主题网络爬虫; 爬行策略; 二次爬行; 相关度分析;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的"经验",实现对后续爬行的指导。实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升。
引用
收藏
页码:264 / 267+293 +293
页数:5
相关论文
共 7 条
[1]   一种基于语义分析的主题爬虫算法 [J].
蒋宗礼 ;
田晓燕 ;
赵旭 .
计算机工程与科学, 2010, 32 (09) :145-147+151
[2]   基于贝叶斯分类器的主题爬虫研究 [J].
邹永斌 ;
陈兴蜀 ;
王文贤 .
计算机应用研究, 2009, 26 (09) :3418-3420+3439
[3]   基于主题的Web信息采集系统的设计与实现 [J].
李盛韬 ;
赵章界 ;
余智华 .
计算机工程, 2003, (17) :102-104
[4]  
聚焦爬行系统的设计—算法视角[D]. 谭思亮.中国科学院研究生院(成都计算机应用研究所). 2006
[5]  
An Adaptive Updating Topic Specific Web Search System Using T-Graph[J] . Ahmed Patel.Journal of Computer Science . 2010 (4)
[6]   Authoritative sources in a hyperlinked environment [J].
Kleinberg, JM .
JOURNAL OF THE ACM, 1999, 46 (05) :604-632
[7]  
A Method for Focused Crawling Using Combination of Link Structure and Content Similarity .2 Jamali M,Sayyadi H,Hariri B B,et al. Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence . 2006