学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于HTMLParser信息提取的网络爬虫设计
被引:8
作者
:
郑力明
论文数:
0
引用数:
0
h-index:
0
机构:
暨南大学信息科学技术学院
郑力明
论文数:
引用数:
h-index:
机构:
易平
机构
:
[1]
暨南大学信息科学技术学院
来源
:
微计算机信息
|
2009年
/ 25卷
/ 15期
关键词
:
网络爬虫;
垂直搜索;
HTMLParser;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
080402 ;
摘要
:
无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计。本文结合HTMLParser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究。通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜索器,并基于HTMLParser的信息提取方法,从种子页面中提取出与生活类主题相关的目标URL。经实验测试证明该爬虫的爬准率达93.552%,爬全率达96.720%,表明该网络爬虫是有效的,达到中等规模的垂直搜索企业级应用的要求。
引用
收藏
页码:123 / 124+69 +69
页数:3
相关论文
共 2 条
[1]
开发自己的搜索引擎.[M].邱哲; 符滔滔; 编著.人民邮电出版社.2007,
[2]
基于Web的网络爬虫的设计与实现
[J].
徐远超
论文数:
0
引用数:
0
h-index:
0
机构:
首都师范大学信息工程学院
徐远超
;
刘江华
论文数:
0
引用数:
0
h-index:
0
机构:
首都师范大学信息工程学院
刘江华
;
论文数:
引用数:
h-index:
机构:
刘丽珍
;
论文数:
引用数:
h-index:
机构:
关永
.
微计算机信息,
2007,
(21)
:119
-121
←
1
→
共 2 条
[1]
开发自己的搜索引擎.[M].邱哲; 符滔滔; 编著.人民邮电出版社.2007,
[2]
基于Web的网络爬虫的设计与实现
[J].
徐远超
论文数:
0
引用数:
0
h-index:
0
机构:
首都师范大学信息工程学院
徐远超
;
刘江华
论文数:
0
引用数:
0
h-index:
0
机构:
首都师范大学信息工程学院
刘江华
;
论文数:
引用数:
h-index:
机构:
刘丽珍
;
论文数:
引用数:
h-index:
机构:
关永
.
微计算机信息,
2007,
(21)
:119
-121
←
1
→