集群式智能型网络信息自动搜寻与采集系统附视频

被引:1
作者
王宇
张秀彬
机构
[1] 上海交通大学信息与控制工程系
关键词
搜索引擎;网络爬虫;集群式;HTTP服务器;
D O I
10.16183/j.cnki.jsjtu.1998.08.008
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
互联网上分布的许多用于搜集网络信息的WebSpiders(网络爬虫)一般都工作在单机上,难以快速完成大规模的信息采集工作.对此提出了一种集群式Spider系统的构想,它能够使许多Spider工作在不同的主机上完成同一项任务(每个Spider负责一部分,可动态调整),因此可大大加速信息采集工作.文中描述了这种系统的体系结构与模型,并介绍了该系统的一种实现,即ChinaWebWizard.它不仅可以在集群模式下工作,还能动态地发现新的站点.该系统为搜索引擎提供了底层支持,对网点建设者和开发者具有参考价值.
引用
收藏
页码:38 / 43
页数:6
相关论文
共 4 条
[1]   基于 PCL818HG 高速数据采集系统的设计 [J].
张秀彬 ;
褚贵宏 ;
王宇 ;
李卫平 .
上海交通大学学报, 1998, (06) :117-120
[2]  
Internet 编程[M]. - 电子工业出版社 , (美)KrisJamsa, 1996
[3]  
网络环境下的C编程技巧及实例[M]. - 西安交通大学出版社 , 方敏等编著, 1996
[4]  
TCP/IP网络原理与技术[M]. - 清华大学出版社 , 周明天, 1993