基于Timed-PageRank的聚焦爬虫优化研究

被引：2

作者：

李东

王虎强

机构：

[1] 装甲兵工程学院信息工程系

来源：

四川兵工学报 | 2015年 / 36卷 / 01期

关键词：

传统网络爬虫; PageRank算法; 聚焦爬虫; Timed-PageRank改进算法;

D O I：

暂无

中图分类号：

TP391.3 [检索机]; TP393.092 [];

学科分类号：

081203 ; 0835 ; 080402 ;

摘要：

传统的基于PageRank算法的网络爬虫在抓取网页时由于只考虑了网页的超链接,势必会使爬虫结果覆盖面广、冗余度高,聚焦爬虫由于其可以有效地过滤与主题无关的链接,只保留有用的链接并将其加入到待抓取的URL队列,因此能够有效地降低爬虫冗余;在分析PageRank算法的基础上,将网页的时间维数和页面的内容相关度融于其中,提出了基于Timed-PageRank的改进算法,并将该算法应用于聚焦爬虫过程中,实践证明该算法能够有效地提高爬虫页面相关度及检索结果的查全率和查准率。

引用

页码：141 / 144

页数：4

共 6 条

[1] 基于内容相关性和时间分析的改进PageRank算法 [J].