聚焦爬虫技术研究综述

被引:158
作者
周立柱
林玲
机构
[1] 清华大学计算机科学与技术系
[2] 清华大学计算机科学与技术系 北京
[3] 北京
关键词
聚焦爬虫; 信息检索; 链接分析; 文本检索; 数据抽取; 协作抓取; 本体描述; 元搜索;
D O I
暂无
中图分类号
TP393.02 [];
学科分类号
081201 ; 1201 ;
摘要
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。
引用
收藏
页码:1965 / 1969
页数:5
相关论文
共 2 条
[1]  
Probabilisticmodelsforfocusedwebcrawling.2LIUHY,MILIOSE,JANSSENJ.Proceedingsofthe6thannualACMinternationalworkshoponWebinformationanddatamanagement[C],November.2004
[2]  
COMPASS:AConcept-basedWebSearchEngineforHTML,XML,andDeepWebData.2GRAUPMANNJ,BIWERM,ZIMMERC,etal.Proceedingsofthe30thVLDBConference[C].2004