基于PageRank与Bagging的主题爬虫研究

被引:12
作者
张翔 [1 ,2 ]
周明全 [3 ]
李智杰 [1 ]
董丽丽 [1 ]
机构
[1] 西安建筑科技大学信息与控制工程学院
[2] 西北大学信息科学与技术学院
[3] 北京师范大学信息科学与技术学院
关键词
主题爬虫; 搜索策略; 主题相关性; PageRank; Bagging;
D O I
10.16208/j.issn1000-7024.2010.14.034
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。
引用
收藏
页码:3309 / 3312
页数:4
相关论文
共 6 条
[1]   基于PageRank的页面排序改进算法 [J].
王冬 ;
雷景生 ;
李壮 .
计算机工程与设计, 2008, (22) :5921-5923+5927
[2]   一种基于超链接引导的主题搜索的主题敏感爬行方法 [J].
蒋宗礼 ;
徐学可 ;
李帅 .
计算机应用, 2008, (04) :942-944+950
[3]   基于主题相似度模型的TS-PageRank算法 [J].
黄德才 ;
戚华春 ;
钱能 .
小型微型计算机系统, 2007, (03) :510-514
[4]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[5]   对网页PageRank算法的改进 [J].
宋聚平 ;
王永成 ;
尹中航 ;
滕伟 .
上海交通大学学报, 2003, (03) :397-400
[6]   Boosting和Bagging综述 [J].
沈学华 ;
周志华 ;
吴建鑫 ;
陈兆乾 .
计算机工程与应用, 2000, (12) :31-32+40