垂直搜索中网页抓取技术的研究

被引:4
作者
陈哲 [1 ]
机构
[1] 山东经贸职业学院
关键词
网络爬虫; 网页搜集; 网页抓取;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
网页抓取是由一个称为网络爬虫的程序实现的,该程序是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上提取新的URL放入队列,直到满足系统的一定停止条件。
引用
收藏
页码:554 / 554
页数:1
相关论文
共 2 条
[1]   XML搜索引擎研究 [J].
王海波 ;
姜吉发 ;
耿晖 ;
白硕 ;
祝明发 .
计算机应用研究, 2001, (04) :68-71
[2]   Learning Information Extraction Rules for Semi-Structured and Free Text [J].
Stephen Soderland .
Machine Learning, 1999, 34 :233-272