基于Shark-Search和Hits算法的主题爬虫研究

被引:19
作者
罗林波 [1 ]
陈绮 [1 ]
吴清秀 [2 ]
机构
[1] 海南大学信息科学技术学院
[2] 海南软件职业技术学院
基金
海南省自然科学基金;
关键词
主题爬虫; 爬行策略; 垂直搜索引擎;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于网页内容评价和基于网页链接关系算法结合起来判断待下载url的优劣,并实现了一个主题爬虫。这种新策略正好弥补了两个算法各自的不足。通过与Shark-Search算法和Hits算法实现的主题爬虫对比,发现用新算法实现的主题爬虫查准率比这两种算法高。
引用
收藏
页码:76 / 79
页数:4
相关论文
共 5 条
[1]   专业搜索引擎搜索策略综述 [J].
欧阳柳波 ;
李学勇 ;
李国徽 ;
王鑫 .
计算机工程, 2004, (13) :32-33+46
[2]   智能化网页资源收集工具的设计与实现 [J].
康平波 ;
田永鸿 ;
黄铁军 .
计算机工程, 2004, (04) :88-89+92
[3]   独立于语种的文本分类方法 [J].
黄萱菁 ;
吴立德 ;
石崎洋之 ;
徐国伟 .
中文信息学报, 2000, (06) :1-7
[4]   Authoritative sources in a hyperlinked environment [J].
Kleinberg, JM .
JOURNAL OF THE ACM, 1999, 46 (05) :604-632
[5]  
The shark-search algorithm. An application: tailored Web site mapping[J] . Michael Hersovici,Michal Jacovi,Yoelle S. Maarek,Dan Pelleg,Menachem Shtalhaim,Sigalit Ur.Computer Networks and ISDN Systems . 1998 (1)