面向Web的信息收集工具的设计与开发

被引:14
作者
潘春华
常敏
武港山
机构
[1] 南京大学计算机软件新技术国家重点实验室
[2] 南京大学计算机科学与技术系
关键词
页面收集; 信息处理; 网络爬虫; 万维网(WWW);
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。
引用
收藏
页码:144 / 147
页数:4
相关论文
共 2 条
  • [1] Crawling towards Eternity: Building an archive of t+he Workd Wide Web. Mike Burner. Web Techniques Magazine, May . 1997
  • [2] Introduction to Modern Information Retrieval. G,Salton,M McGill. McGraw Hill s Washington Report on Medicine Health . 1983