基于HTMLParser信息提取的网络爬虫设计

被引:8
作者
郑力明
易平
机构
[1] 暨南大学信息科学技术学院
关键词
网络爬虫; 垂直搜索; HTMLParser;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计。本文结合HTMLParser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究。通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜索器,并基于HTMLParser的信息提取方法,从种子页面中提取出与生活类主题相关的目标URL。经实验测试证明该爬虫的爬准率达93.552%,爬全率达96.720%,表明该网络爬虫是有效的,达到中等规模的垂直搜索企业级应用的要求。
引用
收藏
页码:123 / 124+69 +69
页数:3
相关论文
共 2 条
[1]  
开发自己的搜索引擎.[M].邱哲; 符滔滔; 编著.人民邮电出版社.2007,
[2]   基于Web的网络爬虫的设计与实现 [J].
徐远超 ;
刘江华 ;
刘丽珍 ;
关永 .
微计算机信息, 2007, (21) :119-121