垂直搜索中网页抓取技术的研究

被引：4

作者：

陈哲 ^{[1
]}

机构：

[1] 山东经贸职业学院

来源：

科技信息 | 2009年 / 22期

关键词：

网络爬虫; 网页搜集; 网页抓取;

D O I：

暂无

中图分类号：

TP391.3 [检索机];

学科分类号：

081203 ; 0835 ;

摘要：

网页抓取是由一个称为网络爬虫的程序实现的,该程序是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上提取新的URL放入队列,直到满足系统的一定停止条件。

引用

收藏

页码：554 / 554

页数：1

相关论文

共 2 条

[1] XML搜索引擎研究 [J].

王海波 ;

姜吉发 ;

耿晖 ;

白硕 ;

祝明发 .

计算机应用研究, 2001, (04) :68-71

[2] Learning Information Extraction Rules for Semi-Structured and Free Text [J].

Stephen Soderland .

Machine Learning, 1999, 34 :233-272