基于贝叶斯分类器的主题爬虫研究

被引:16
作者
邹永斌 [1 ]
陈兴蜀 [1 ]
王文贤 [1 ,2 ]
机构
[1] 四川大学计算机学院网络与可信计算研究所
[2] 四川大学信息安全研究所
关键词
贝叶斯; 分类器; 主题爬虫; 主题相关度;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度。实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫。
引用
收藏
页码:3418 / 3420+3439 +3439
页数:4
相关论文
共 4 条
[1]   文本特征加权方法TF·IDF的分析与改进 [J].
林永民 ;
吕震宇 ;
赵爽 ;
朱卫东 .
计算机工程与设计, 2008, (11) :2923-2925+2929
[2]   Augmenting Naive Bayes Classifiers with Statistical Language Models [J].
Fuchun Peng ;
Dale Schuurmans ;
Shaojun Wang .
Information Retrieval, 2004, 7 :317-345
[3]   Automating the construction of internet portals with machine learning [J].
McCallum, AK ;
Nigam, K ;
Rennie, J ;
Seymore, K .
INFORMATION RETRIEVAL, 2000, 3 (02) :127-163
[4]  
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)