基于内容和链接分析的主题爬虫策略

被引:5
作者
刘朋
林泓
高德威
机构
[1] 武汉理工大学计算机科学与技术学院
关键词
主题爬虫; 爬行策略; Web挖掘; 论文评估;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的爬行策略,并实现了一个主题爬虫。通过与传统策略的对比,可以得出该策略既可以利用链接分析扩大某个主题的资源覆盖度,又可以保证搜索结果与主题的高度相关。
引用
收藏
页码:22 / 24+80 +80
页数:4
相关论文
empty
未找到相关数据