基于共现词查询的主题爬虫研究

被引:3
作者
葛玲
蒋宗礼
机构
[1] 北京工业大学计算机学院
关键词
主题爬虫; 共现词; FDC主题模型; FDCTopic Sensitive PageRank算法;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
通过建立一个共现词库改进主题模型,以提高下载网页的主题相关度及质量,并且能描述其语境的上下文,揣测用户意图,调节检索结果排序。在此基础上设计并实现一个FDC主题爬虫系统,该系统采用改进的主题敏感FDC-PageRank算法来计算网页优先级。实验表明其效果良好。
引用
收藏
页码:286 / 288
页数:3
相关论文
共 1 条
[1]   Authoritative sources in a hyperlinked environment [J].
Kleinberg, JM .
JOURNAL OF THE ACM, 1999, 46 (05) :604-632