基于HTMLParser信息提取的网络爬虫设计

被引：8

作者：

郑力明

易平

机构：

[1] 暨南大学信息科学技术学院

来源：

微计算机信息 | 2009年 / 25卷 / 15期

关键词：

网络爬虫; 垂直搜索; HTMLParser;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计。本文结合HTMLParser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究。通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜索器,并基于HTMLParser的信息提取方法,从种子页面中提取出与生活类主题相关的目标URL。经实验测试证明该爬虫的爬准率达93.552%,爬全率达96.720%,表明该网络爬虫是有效的,达到中等规模的垂直搜索企业级应用的要求。

引用

页码：123 / 124+69 +69

页数：3