学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于遗传算法的聚焦爬虫搜索策略
被引:5
作者
:
曾广朴
论文数:
0
引用数:
0
h-index:
0
机构:
长江师范学院数学与计算机学院
曾广朴
范会联
论文数:
0
引用数:
0
h-index:
0
机构:
长江师范学院数学与计算机学院
范会联
机构
:
[1]
长江师范学院数学与计算机学院
来源
:
计算机工程
|
2010年
/ 36卷
/ 11期
关键词
:
聚焦爬虫;
遗传算法;
小生境;
主题相关度;
D O I
:
暂无
中图分类号
:
TP391.3 [检索机];
学科分类号
:
摘要
:
为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略。改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方向。实验结果证明,与聚焦爬虫的其他实现技术相比,该策略在抓取主题相关网页时具有更高的查准率和查全率。
引用
收藏
页码:167 / 169
页数:3
相关论文
共 5 条
[1]
基于多Agent系统的定题爬虫算法
论文数:
引用数:
h-index:
机构:
徐照财
论文数:
引用数:
h-index:
机构:
程显毅
[J].
计算机工程,
2008,
(16)
: 204
-
206
[2]
基于遗传算法的主题爬虫策略
论文数:
引用数:
h-index:
机构:
刘国靖
论文数:
引用数:
h-index:
机构:
康丽
罗长寿
论文数:
0
引用数:
0
h-index:
0
机构:
北京市农林科学院农业科技信息研究所
中国农业大学信息与电气工程学院
罗长寿
[J].
计算机应用,
2007,
(S2)
: 172
-
174+179
[3]
主题搜索ROBOT综合爬行策略的研究
论文数:
引用数:
h-index:
机构:
吴安清
张颖江
论文数:
0
引用数:
0
h-index:
0
机构:
湖北工业大学计算机学院
张颖江
论文数:
引用数:
h-index:
机构:
涂军
[J].
武汉理工大学学报,
2006,
(02)
: 74
-
76
[4]
基于超链接和标记文本的信息检索算法
钟敏娟
论文数:
0
引用数:
0
h-index:
0
机构:
江西科技师范学院数学与计算机科学系
钟敏娟
林亚平
论文数:
0
引用数:
0
h-index:
0
机构:
江西科技师范学院数学与计算机科学系
林亚平
论文数:
引用数:
h-index:
机构:
陈治平
[J].
小型微型计算机系统,
2004,
(07)
: 1344
-
1347
[5]
遗传算法原理及应用.[M].周明;孙树栋编著;.国防工业出版社.1999,
←
1
→
共 5 条
[1]
基于多Agent系统的定题爬虫算法
论文数:
引用数:
h-index:
机构:
徐照财
论文数:
引用数:
h-index:
机构:
程显毅
[J].
计算机工程,
2008,
(16)
: 204
-
206
[2]
基于遗传算法的主题爬虫策略
论文数:
引用数:
h-index:
机构:
刘国靖
论文数:
引用数:
h-index:
机构:
康丽
罗长寿
论文数:
0
引用数:
0
h-index:
0
机构:
北京市农林科学院农业科技信息研究所
中国农业大学信息与电气工程学院
罗长寿
[J].
计算机应用,
2007,
(S2)
: 172
-
174+179
[3]
主题搜索ROBOT综合爬行策略的研究
论文数:
引用数:
h-index:
机构:
吴安清
张颖江
论文数:
0
引用数:
0
h-index:
0
机构:
湖北工业大学计算机学院
张颖江
论文数:
引用数:
h-index:
机构:
涂军
[J].
武汉理工大学学报,
2006,
(02)
: 74
-
76
[4]
基于超链接和标记文本的信息检索算法
钟敏娟
论文数:
0
引用数:
0
h-index:
0
机构:
江西科技师范学院数学与计算机科学系
钟敏娟
林亚平
论文数:
0
引用数:
0
h-index:
0
机构:
江西科技师范学院数学与计算机科学系
林亚平
论文数:
引用数:
h-index:
机构:
陈治平
[J].
小型微型计算机系统,
2004,
(07)
: 1344
-
1347
[5]
遗传算法原理及应用.[M].周明;孙树栋编著;.国防工业出版社.1999,
←
1
→