智能化网页资源收集工具的设计与实现

被引:2
作者
康平波
田永鸿
黄铁军
机构
[1] 中国科技大学研究生院
[2] 中国科学院计算技术研究所
[3] 中国科学院计算技术研究所 北京
关键词
网页机器人; 超链分析; 文本自动分类; 面向主题抓取;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。介绍了智能化网页收集工具系统的实现方法,它把抓取器与超链分析器、文本自动分类器相结合,完成对用户要求领域的网页的收集.避免对用户不感兴趣领域的抓取。这样可以节省硬件、网络资源和提高资源采集效率。
引用
收藏
页码:88 / 89+92 +92
页数:3
相关论文
共 3 条
[1]   一种新的基于统计的自动文本分类方法 [J].
刘斌 ;
黄铁军 ;
程军 ;
高文 .
中文信息学报, 2002, (06) :18-24
[2]   Authoritative sources in a hyperlinked environment [J].
Kleinberg, JM .
JOURNAL OF THE ACM, 1999, 46 (05) :604-632
[3]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90