共 6 条
基于PageRank与Bagging的主题爬虫研究
被引:12
作者:
张翔
[1
,2
]
周明全
[3
]
李智杰
[1
]
董丽丽
[1
]
机构:
[1] 西安建筑科技大学信息与控制工程学院
[2] 西北大学信息科学与技术学院
[3] 北京师范大学信息科学与技术学院
来源:
关键词:
主题爬虫;
搜索策略;
主题相关性;
PageRank;
Bagging;
D O I:
10.16208/j.issn1000-7024.2010.14.034
中图分类号:
TP391.3 [检索机];
学科分类号:
081203 ;
0835 ;
摘要:
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。
引用
收藏
页码:3309 / 3312
页数:4
相关论文