主题网络爬虫研究综述

被引:106
作者
于娟
刘强
机构
[1] 福州大学经济与管理学院
关键词
网络爬虫; 主题爬虫; 搜索引擎;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
网络信息资源呈指数级增长,面对用户越来越个性化的需求,主题网络爬虫应运而生。主题网络爬虫是一种下载特定主题网页的程序。利用在采集页面过程获得的特定信息,主题网络爬虫抓取的页面都是与主题相关的。基于主题网络爬虫的搜索引擎以及基于主题网络爬虫构建领域语料库等应用已经得到广泛运用。首先介绍了主题爬虫的定义、工作原理;然后介绍了近年来国内外关于主题爬虫的研究状况,并比较了各种爬行策略及相关算法的优缺点;最后提出了主题网络爬虫未来的研究方向。
引用
收藏
页码:231 / 237
页数:7
相关论文
共 23 条
  • [1] 基于URL规则的聚焦爬虫及其应用.[D].叶勤勇.浙江大学.2007, 02
  • [2] 基于文本的领域本体学习方法及其应用研究.[D].于娟.大连理工大学.2010, 09
  • [3] Topical web crawlers.[J].Filippo Menczer;Gautam Pant;Padmini Srinivasan.ACM Transactions on Internet Technology (TOIT).2004, 4
  • [4] Learnable topic-specific web crawler.[J].A. Rungsawang;N. Angkawattanawit.Journal of Network and Computer Applications.2004, 2
  • [5] Authoritative sources in a hyperlinked environment
    Kleinberg, JM
    [J]. JOURNAL OF THE ACM, 1999, 46 (05) : 604 - 632
  • [6] Efficient crawling through URL ordering.[J].Junghoo Cho;Hector Garcia-Molina;Lawrence Page.Computer Networks and ISDN Systems.1998, 1
  • [7] The shark-search algorithm. An application: tailored Web site mapping.[J].Michael Hersovici;Michal Jacovi;Yoelle S. Maarek;Dan Pelleg;Menachem Shtalhaim;Sigalit Ur.Computer Networks and ISDN Systems.1998, 1
  • [8] The anatomy of a large-scale hypertextual Web search engine.[J].Sergey Brin;Lawrence Page.Computer Networks and ISDN Systems.1998, 1
  • [9] Knowledge engineering: Principles and methods.[J].Rudi Studer;V.Richard Benjamins;Dieter Fensel.Data & Knowledge Engineering.1998, 1
  • [10] 主题爬虫相关度算法研究综述
    王帅
    周国民
    王健
    [J]. 计算机与现代化, 2013, (04) : 27 - 30+39