一种基于超链接引导的主题搜索的主题敏感爬行方法

被引:9
作者
蒋宗礼 [1 ]
徐学可 [1 ]
李帅 [2 ]
机构
[1] 北京工业大学计算机学院
[2] 清华大学电子工程系
关键词
主题爬虫; 超链接引导的主题搜索; 主题模型;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。
引用
收藏
页码:942 / 944+950 +950
页数:4
相关论文
共 2 条
[1]   Inherit/Feedback:一种新的Web主题挖掘方法 [J].
杨沛 ;
郑启伦 ;
彭宏 .
计算机研究与发展, 2004, (05) :807-811
[2]  
Focused crawling: a new approach to topic-specific Web resource discovery[J] . Soumen Chakrabarti,Martin van den Berg,Byron Dom.Computer Networks . 1999 (11)