一种基于语义分析的主题爬虫算法

被引:7
作者
蒋宗礼
田晓燕
赵旭
机构
[1] 北京工业大学计算机学院
关键词
主题爬虫; 子空间; 语义分析; 支持向量机;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
海量网页的存在及其量的急速增长使得通用搜索引擎难以为面向主题或领域的查询提供满意结果。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的。它通过评价网页的主题相关度,并优先爬取相关度较高的网页。利用一种基于子空间的语义分析技术,并结合贝叶斯以及支持向量机,设计并实现了一个高效的主题爬虫。实验表明,此算法具有很好的准确性和高效性。
引用
收藏
页码:145 / 147+151 +151
页数:4
相关论文
共 1 条
[1]   可在线增量自学习的聚焦爬行方法 [J].
傅向华 ;
冯博琴 ;
马兆丰 ;
何明 .
西安交通大学学报, 2004, (06) :599-602