基于概念分析的主题爬虫设计

被引:10
作者
汪涛
樊孝忠
顾益军
刘林
机构
[1] 北京理工大学信息科学技术学院计算机科学工程系
[2] 北京理工大学信息科学技术学院计算机科学工程系 北京炮兵学院三系安徽
[3] 合肥
[4] 北京
关键词
搜索引擎; 主题爬虫; 概念分析; 相关度; 信息采集;
D O I
10.15918/j.tbit1001-0645.2004.10.012
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
研究改进主题爬虫设计的方法,用高效的主题爬虫取代传统搜索引擎中的普通爬虫,以更高的精度完成定向信息采集.在成功实现基于关键词的主题爬虫的基础上,提出了基于概念的主题相关度分析算法,给出了基于概念分析的主题爬虫的实现方案.比较两种主题爬虫工作的实验结果,显示爬虫的性能得到了提高,论证了该设计的可行性与可操作性,为实现准确的定向信息采集奠定了良好的基础.
引用
收藏
页码:890 / 893
页数:4
相关论文
empty
未找到相关数据