学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
网络爬虫的优化策略探略
被引:18
作者
:
李志义
论文数:
0
引用数:
0
h-index:
0
机构:
华南师范大学经济与管理学院
李志义
机构
:
[1]
华南师范大学经济与管理学院
来源
:
现代情报
|
2011年
/ 31卷
/ 10期
关键词
:
网络爬虫;
优化策略;
搜索引擎;
D O I
:
暂无
中图分类号
:
TP391.3 [检索机];
学科分类号
:
081203 ;
0835 ;
摘要
:
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。
引用
收藏
页码:31 / 35
页数:5
相关论文
共 11 条
[1]
面向垂直搜索引擎的主题爬行技术研究.[D].陈竹敏.山东大学.2008, 05
[2]
网络爬虫技术的研究
[J].
孙立伟
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学指挥自动化学院
孙立伟
;
何国辉
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学指挥自动化学院
何国辉
;
吴礼发
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学指挥自动化学院
吴礼发
.
电脑知识与技术,
2010,
6
(15)
:4112
-4115
[3]
一种基于文本内容的HITS改进算法
[J].
郭鸿
论文数:
0
引用数:
0
h-index:
0
机构:
桂林电子科技大学计算机与控制学院
郭鸿
.
计算机系统应用,
2009,
18
(09)
:38
-40+131
[4]
高性能网络爬虫:研究综述
[J].
论文数:
引用数:
h-index:
机构:
周德懋
;
李舟军
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学计算机学院
李舟军
.
计算机科学,
2009,
36
(08)
:26
-29+53
[5]
基于PageRank的页面排序改进算法
[J].
王冬
论文数:
0
引用数:
0
h-index:
0
机构:
琼州学院计算机系
琼州学院计算机系
王冬
;
论文数:
引用数:
h-index:
机构:
雷景生
;
李壮
论文数:
0
引用数:
0
h-index:
0
机构:
琼州学院计算机系
琼州学院计算机系
李壮
.
计算机工程与设计,
2008,
(22)
:5921
-5923+5927
[6]
基于本体的主题爬虫的设计与实现
[J].
杨贞
论文数:
0
引用数:
0
h-index:
0
机构:
合肥工业大学管理学院信息管理与信息系统研究所
杨贞
;
论文数:
引用数:
h-index:
机构:
杜习英
.
科技情报开发与经济,
2008,
(02)
:73
-75
[7]
主题网络爬虫研究综述
[J].
刘金红
论文数:
0
引用数:
0
h-index:
0
机构:
解放军电子工程学院网络系
刘金红
;
陆余良
论文数:
0
引用数:
0
h-index:
0
机构:
解放军电子工程学院网络系
陆余良
.
计算机应用研究,
2007,
(10)
:26
-29+47
[8]
一种使用分布式技术的搜索引擎
[J].
姚树宇
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系
姚树宇
;
赵少东
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系
赵少东
.
计算机应用与软件,
2005,
(10)
:129
-131
[9]
聚焦爬虫技术研究综述
[J].
周立柱
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
周立柱
;
林玲
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
林玲
.
计算机应用,
2005,
(09)
:1965
-1969
[10]
Independent shape component-based human activity recognition via Hidden Markov Model
[J].
Uddin, M. Zia
论文数:
0
引用数:
0
h-index:
0
机构:
Kyung Hee Univ, Dept Biomed Engn, Yongin 446701, Gyeonggi Do, South Korea
Kyung Hee Univ, Dept Biomed Engn, Yongin 446701, Gyeonggi Do, South Korea
Uddin, M. Zia
;
Lee, J. J.
论文数:
0
引用数:
0
h-index:
0
机构:
Kyung Hee Univ, Dept Biomed Engn, Yongin 446701, Gyeonggi Do, South Korea
Kyung Hee Univ, Dept Biomed Engn, Yongin 446701, Gyeonggi Do, South Korea
Lee, J. J.
;
Kim, T. -S.
论文数:
0
引用数:
0
h-index:
0
机构:
Kyung Hee Univ, Dept Biomed Engn, Yongin 446701, Gyeonggi Do, South Korea
Kyung Hee Univ, Dept Biomed Engn, Yongin 446701, Gyeonggi Do, South Korea
Kim, T. -S.
.
APPLIED INTELLIGENCE,
2010,
33
(02)
:193
-206
←
1
2
→
共 11 条
[1]
面向垂直搜索引擎的主题爬行技术研究.[D].陈竹敏.山东大学.2008, 05
[2]
网络爬虫技术的研究
[J].
孙立伟
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学指挥自动化学院
孙立伟
;
何国辉
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学指挥自动化学院
何国辉
;
吴礼发
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学指挥自动化学院
吴礼发
.
电脑知识与技术,
2010,
6
(15)
:4112
-4115
[3]
一种基于文本内容的HITS改进算法
[J].
郭鸿
论文数:
0
引用数:
0
h-index:
0
机构:
桂林电子科技大学计算机与控制学院
郭鸿
.
计算机系统应用,
2009,
18
(09)
:38
-40+131
[4]
高性能网络爬虫:研究综述
[J].
论文数:
引用数:
h-index:
机构:
周德懋
;
李舟军
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学计算机学院
李舟军
.
计算机科学,
2009,
36
(08)
:26
-29+53
[5]
基于PageRank的页面排序改进算法
[J].
王冬
论文数:
0
引用数:
0
h-index:
0
机构:
琼州学院计算机系
琼州学院计算机系
王冬
;
论文数:
引用数:
h-index:
机构:
雷景生
;
李壮
论文数:
0
引用数:
0
h-index:
0
机构:
琼州学院计算机系
琼州学院计算机系
李壮
.
计算机工程与设计,
2008,
(22)
:5921
-5923+5927
[6]
基于本体的主题爬虫的设计与实现
[J].
杨贞
论文数:
0
引用数:
0
h-index:
0
机构:
合肥工业大学管理学院信息管理与信息系统研究所
杨贞
;
论文数:
引用数:
h-index:
机构:
杜习英
.
科技情报开发与经济,
2008,
(02)
:73
-75
[7]
主题网络爬虫研究综述
[J].
刘金红
论文数:
0
引用数:
0
h-index:
0
机构:
解放军电子工程学院网络系
刘金红
;
陆余良
论文数:
0
引用数:
0
h-index:
0
机构:
解放军电子工程学院网络系
陆余良
.
计算机应用研究,
2007,
(10)
:26
-29+47
[8]
一种使用分布式技术的搜索引擎
[J].
姚树宇
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系
姚树宇
;
赵少东
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系
赵少东
.
计算机应用与软件,
2005,
(10)
:129
-131
[9]
聚焦爬虫技术研究综述
[J].
周立柱
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
周立柱
;
林玲
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
林玲
.
计算机应用,
2005,
(09)
:1965
-1969
[10]
Independent shape component-based human activity recognition via Hidden Markov Model
[J].
Uddin, M. Zia
论文数:
0
引用数:
0
h-index:
0
机构:
Kyung Hee Univ, Dept Biomed Engn, Yongin 446701, Gyeonggi Do, South Korea
Kyung Hee Univ, Dept Biomed Engn, Yongin 446701, Gyeonggi Do, South Korea
Uddin, M. Zia
;
Lee, J. J.
论文数:
0
引用数:
0
h-index:
0
机构:
Kyung Hee Univ, Dept Biomed Engn, Yongin 446701, Gyeonggi Do, South Korea
Kyung Hee Univ, Dept Biomed Engn, Yongin 446701, Gyeonggi Do, South Korea
Lee, J. J.
;
Kim, T. -S.
论文数:
0
引用数:
0
h-index:
0
机构:
Kyung Hee Univ, Dept Biomed Engn, Yongin 446701, Gyeonggi Do, South Korea
Kyung Hee Univ, Dept Biomed Engn, Yongin 446701, Gyeonggi Do, South Korea
Kim, T. -S.
.
APPLIED INTELLIGENCE,
2010,
33
(02)
:193
-206
←
1
2
→