聚焦爬虫技术研究综述

被引：158

作者：

周立柱

林玲

机构：

[1] 清华大学计算机科学与技术系

[2] 清华大学计算机科学与技术系北京

[3] 北京

来源：

计算机应用 | 2005年 / 09期

关键词：

聚焦爬虫; 信息检索; 链接分析; 文本检索; 数据抽取; 协作抓取; 本体描述; 元搜索;

D O I：

暂无

中图分类号：

TP393.02 [];

学科分类号：

081201 ; 1201 ;

摘要：

因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。

引用

页码：1965 / 1969

页数：5