基于URL模式集的主题爬虫

被引:19
作者
胡萍瑞
李石君
机构
[1] 武汉大学计算机学院
关键词
主题爬虫; URL模式; URL前缀树; 模式关系图; URL模式重要性;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模式关系图,计算出各模式的重要度;在聚焦爬虫阶段,无须预先下载页面,即可利用生成的URL模式判断页面是否主题相关和能否指导爬虫深入抓取,并根据URL模式的重要度预测待抓取链接优先级。实验表明,该爬虫相比现有的主题爬虫能快速引导爬虫抓取主题相关页面,保证爬虫的查准率和查全率,有效提高爬虫抓取效率。
引用
收藏
页码:694 / 699+726 +726
页数:7
相关论文
共 8 条
[1]   基于URL主题的查询分类方法 [J].
张宇 ;
宋巍 ;
刘挺 ;
李生 .
计算机研究与发展, 2012, (06) :1298-1305
[2]  
基于主题的互联网信息抓取研究.[D].杨肖.浙江大学.2014, 03
[3]  
An improved focused crawler based on Semantic Similarity Vector Space Model.[J].Yajun Du;Wenjun Liu;Xianjing Lv;Guoli Peng.Applied Soft Computing.2015,
[4]  
CALA: An unsupervised URL-based web page classification system.[J].Inma Hernández;Carlos R. Rivero;David Ruiz;Rafael Corchuelo.Knowledge-Based Systems.2014,
[5]  
Web Crawler Design Issues: A Review.[J].DEEPIKA; DR ASHUTOSH DIXIT.International Journal of Management; IT & Engineering (IJMIE).2012,
[6]  
Combining text and link analysis for focused crawling—An application for vertical search engines.[J].G. Almpanidis;C. Kotropoulos;I. Pitas.Information Systems.2006, 6
[7]   Using HMM to learn user browsing patterns for focused Web crawling [J].
Liu, Hongyu ;
Janssen, Jeannette ;
Millos, Evangelos .
DATA & KNOWLEDGE ENGINEERING, 2006, 59 (02) :270-291
[8]  
Efficient crawling through URL ordering.[J].Junghoo Cho;Hector Garcia-Molina;Lawrence Page.Computer Networks and ISDN Systems.1998, 1