基于Timed-PageRank的聚焦爬虫优化研究

被引:2
作者
李东
王虎强
机构
[1] 装甲兵工程学院信息工程系
关键词
传统网络爬虫; PageRank算法; 聚焦爬虫; Timed-PageRank改进算法;
D O I
暂无
中图分类号
TP391.3 [检索机]; TP393.092 [];
学科分类号
081203 ; 0835 ; 080402 ;
摘要
传统的基于PageRank算法的网络爬虫在抓取网页时由于只考虑了网页的超链接,势必会使爬虫结果覆盖面广、冗余度高,聚焦爬虫由于其可以有效地过滤与主题无关的链接,只保留有用的链接并将其加入到待抓取的URL队列,因此能够有效地降低爬虫冗余;在分析PageRank算法的基础上,将网页的时间维数和页面的内容相关度融于其中,提出了基于Timed-PageRank的改进算法,并将该算法应用于聚焦爬虫过程中,实践证明该算法能够有效地提高爬虫页面相关度及检索结果的查全率和查准率。
引用
收藏
页码:141 / 144
页数:4
相关论文
共 6 条
[1]   基于内容相关性和时间分析的改进PageRank算法 [J].
邓丹君 ;
周彩兰 .
计算机与数字工程, 2011, 39 (01) :25-27
[2]   基于PageRank与Bagging的主题爬虫研究 [J].
张翔 ;
周明全 ;
李智杰 ;
董丽丽 .
计算机工程与设计, 2010, 31 (14) :3309-3312
[3]   网络搜索引擎的现状及发展探析 [J].
李国成 .
企业科技与发展, 2009, (08) :25-26
[4]   简析搜索引擎中网络爬虫的搜索策略 [J].
刘世涛 .
阜阳师范学院学报(自然科学版), 2006, (03) :59-62
[5]   聚焦爬虫技术研究综述 [J].
周立柱 ;
林玲 .
计算机应用, 2005, (09) :1965-1969
[6]  
数据挖掘十大算法.[M].吴倍东;库玛尔.清华大学出版社.2013,