学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于模拟退火算法的主题爬虫
被引:8
作者
:
论文数:
引用数:
h-index:
机构:
贺晟
[
1
]
论文数:
引用数:
h-index:
机构:
程家兴
[
1
]
论文数:
引用数:
h-index:
机构:
蔡欣宝
[
2
]
机构
:
[1]
安徽大学计算智能与信号处理教育部重点实验室
[2]
苏州大学智能信息处理及应用研究所
来源
:
计算机技术与发展
|
2009年
/ 19卷
/ 12期
关键词
:
模拟退火算法;
隧道技术;
召回率;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
主题爬虫是主题搜索引擎的基础与核心,主题爬行策略的好坏直接影响搜索结果。为了搜索到更多相关的网页,通过利用模拟退火机制选择下一步要访问的链接,使那些蕴含"综合价值"高的链接在搜索初期有机会被选中,同时利用"隧道技术"扩大相关网页的搜索范围。计算链接价值时,综合考虑了链接所在页面内容的价值和链接提示文字的价值,根据它们对链接价值的影响程度不同,分别赋予它们不同的权值。实验证明,该方法对提高网页覆盖率和准确率都有很好的效果。
引用
收藏
页码:55 / 58+62 +62
页数:5
相关论文
共 7 条
[1]
基于网页内容和链接价值的相关度方法的实现
论文数:
引用数:
h-index:
机构:
郑国良
论文数:
引用数:
h-index:
机构:
叶飞跃
论文数:
引用数:
h-index:
机构:
张滨
论文数:
引用数:
h-index:
机构:
林国俊
[J].
计算机工程与设计,
2008,
(23)
: 6020
-
6022+6046
[2]
基于内容评价的爬虫搜索策略研究
论文数:
引用数:
h-index:
机构:
黄旭
论文数:
引用数:
h-index:
机构:
朱艳琴
罗喜召
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
罗喜召
[J].
微电子学与计算机,
2008,
(11)
: 25
-
28
[3]
启发式搜索在网络爬虫中应用的分析
论文数:
引用数:
h-index:
机构:
邓岳贵
[J].
软件导刊,
2008,
(02)
: 80
-
82
[4]
一种改进的主题网络蜘蛛搜索算法
林海霞
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学信息科学与工程学院
林海霞
论文数:
引用数:
h-index:
机构:
原福永
陈金森
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学信息科学与工程学院
陈金森
刘俊峰
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学信息科学与工程学院
刘俊峰
[J].
计算机工程与应用,
2007,
(10)
: 174
-
176
[5]
一种改进的模拟退火算法
王知人
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学理学院信息与计算科学系
燕山大学理学院信息与计算科学系
王知人
章胤
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学理学院信息与计算科学系
燕山大学理学院信息与计算科学系
章胤
李新乔
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院高能物理研究所
燕山大学理学院信息与计算科学系
李新乔
[J].
高等学校计算数学学报,
2006,
(01)
: 15
-
19
[6]
Web信息主题采集技术研究
李春旺
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院文献情报中心北京
李春旺
[J].
图书情报工作,
2005,
(04)
: 77
-
80+70
[7]
Efficient crawling through URL ordering[J] . Junghoo Cho,Hector Garcia-Molina,Lawrence Page.Computer Networks and ISDN Systems . 1998 (1)
←
1
→
共 7 条
[1]
基于网页内容和链接价值的相关度方法的实现
论文数:
引用数:
h-index:
机构:
郑国良
论文数:
引用数:
h-index:
机构:
叶飞跃
论文数:
引用数:
h-index:
机构:
张滨
论文数:
引用数:
h-index:
机构:
林国俊
[J].
计算机工程与设计,
2008,
(23)
: 6020
-
6022+6046
[2]
基于内容评价的爬虫搜索策略研究
论文数:
引用数:
h-index:
机构:
黄旭
论文数:
引用数:
h-index:
机构:
朱艳琴
罗喜召
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
罗喜召
[J].
微电子学与计算机,
2008,
(11)
: 25
-
28
[3]
启发式搜索在网络爬虫中应用的分析
论文数:
引用数:
h-index:
机构:
邓岳贵
[J].
软件导刊,
2008,
(02)
: 80
-
82
[4]
一种改进的主题网络蜘蛛搜索算法
林海霞
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学信息科学与工程学院
林海霞
论文数:
引用数:
h-index:
机构:
原福永
陈金森
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学信息科学与工程学院
陈金森
刘俊峰
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学信息科学与工程学院
刘俊峰
[J].
计算机工程与应用,
2007,
(10)
: 174
-
176
[5]
一种改进的模拟退火算法
王知人
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学理学院信息与计算科学系
燕山大学理学院信息与计算科学系
王知人
章胤
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学理学院信息与计算科学系
燕山大学理学院信息与计算科学系
章胤
李新乔
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院高能物理研究所
燕山大学理学院信息与计算科学系
李新乔
[J].
高等学校计算数学学报,
2006,
(01)
: 15
-
19
[6]
Web信息主题采集技术研究
李春旺
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院文献情报中心北京
李春旺
[J].
图书情报工作,
2005,
(04)
: 77
-
80+70
[7]
Efficient crawling through URL ordering[J] . Junghoo Cho,Hector Garcia-Molina,Lawrence Page.Computer Networks and ISDN Systems . 1998 (1)
←
1
→