学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于Timed-PageRank的聚焦爬虫优化研究
被引:2
作者
:
李东
论文数:
0
引用数:
0
h-index:
0
机构:
装甲兵工程学院信息工程系
李东
王虎强
论文数:
0
引用数:
0
h-index:
0
机构:
装甲兵工程学院信息工程系
王虎强
机构
:
[1]
装甲兵工程学院信息工程系
来源
:
四川兵工学报
|
2015年
/ 36卷
/ 01期
关键词
:
传统网络爬虫;
PageRank算法;
聚焦爬虫;
Timed-PageRank改进算法;
D O I
:
暂无
中图分类号
:
TP391.3 [检索机];
TP393.092 [];
学科分类号
:
081203 ;
0835 ;
080402 ;
摘要
:
传统的基于PageRank算法的网络爬虫在抓取网页时由于只考虑了网页的超链接,势必会使爬虫结果覆盖面广、冗余度高,聚焦爬虫由于其可以有效地过滤与主题无关的链接,只保留有用的链接并将其加入到待抓取的URL队列,因此能够有效地降低爬虫冗余;在分析PageRank算法的基础上,将网页的时间维数和页面的内容相关度融于其中,提出了基于Timed-PageRank的改进算法,并将该算法应用于聚焦爬虫过程中,实践证明该算法能够有效地提高爬虫页面相关度及检索结果的查全率和查准率。
引用
收藏
页码:141 / 144
页数:4
相关论文
共 6 条
[1]
基于内容相关性和时间分析的改进PageRank算法
[J].
论文数:
引用数:
h-index:
机构:
邓丹君
;
周彩兰
论文数:
0
引用数:
0
h-index:
0
机构:
武汉理工大学计算机学院
周彩兰
.
计算机与数字工程,
2011,
39
(01)
:25
-27
[2]
基于PageRank与Bagging的主题爬虫研究
[J].
论文数:
引用数:
h-index:
机构:
张翔
;
论文数:
引用数:
h-index:
机构:
周明全
;
李智杰
论文数:
0
引用数:
0
h-index:
0
机构:
西安建筑科技大学信息与控制工程学院
西安建筑科技大学信息与控制工程学院
李智杰
;
论文数:
引用数:
h-index:
机构:
董丽丽
.
计算机工程与设计,
2010,
31
(14)
:3309
-3312
[3]
网络搜索引擎的现状及发展探析
[J].
李国成
论文数:
0
引用数:
0
h-index:
0
机构:
广西国际商务职业技术学院
李国成
.
企业科技与发展,
2009,
(08)
:25
-26
[4]
简析搜索引擎中网络爬虫的搜索策略
[J].
刘世涛
论文数:
0
引用数:
0
h-index:
0
机构:
江苏联合职业技术学院连云港财经分院
刘世涛
.
阜阳师范学院学报(自然科学版),
2006,
(03)
:59
-62
[5]
聚焦爬虫技术研究综述
[J].
周立柱
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
周立柱
;
林玲
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
林玲
.
计算机应用,
2005,
(09)
:1965
-1969
[6]
数据挖掘十大算法.[M].吴倍东;库玛尔.清华大学出版社.2013,
←
1
→
共 6 条
[1]
基于内容相关性和时间分析的改进PageRank算法
[J].
论文数:
引用数:
h-index:
机构:
邓丹君
;
周彩兰
论文数:
0
引用数:
0
h-index:
0
机构:
武汉理工大学计算机学院
周彩兰
.
计算机与数字工程,
2011,
39
(01)
:25
-27
[2]
基于PageRank与Bagging的主题爬虫研究
[J].
论文数:
引用数:
h-index:
机构:
张翔
;
论文数:
引用数:
h-index:
机构:
周明全
;
李智杰
论文数:
0
引用数:
0
h-index:
0
机构:
西安建筑科技大学信息与控制工程学院
西安建筑科技大学信息与控制工程学院
李智杰
;
论文数:
引用数:
h-index:
机构:
董丽丽
.
计算机工程与设计,
2010,
31
(14)
:3309
-3312
[3]
网络搜索引擎的现状及发展探析
[J].
李国成
论文数:
0
引用数:
0
h-index:
0
机构:
广西国际商务职业技术学院
李国成
.
企业科技与发展,
2009,
(08)
:25
-26
[4]
简析搜索引擎中网络爬虫的搜索策略
[J].
刘世涛
论文数:
0
引用数:
0
h-index:
0
机构:
江苏联合职业技术学院连云港财经分院
刘世涛
.
阜阳师范学院学报(自然科学版),
2006,
(03)
:59
-62
[5]
聚焦爬虫技术研究综述
[J].
周立柱
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
周立柱
;
林玲
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
林玲
.
计算机应用,
2005,
(09)
:1965
-1969
[6]
数据挖掘十大算法.[M].吴倍东;库玛尔.清华大学出版社.2013,
←
1
→