共 1 条
基于共现词查询的主题爬虫研究
被引:3
作者:
葛玲
蒋宗礼
机构:
[1] 北京工业大学计算机学院
来源:
关键词:
主题爬虫;
共现词;
FDC主题模型;
FDCTopic Sensitive PageRank算法;
D O I:
暂无
中图分类号:
TP391.3 [检索机];
学科分类号:
081203 ;
0835 ;
摘要:
通过建立一个共现词库改进主题模型,以提高下载网页的主题相关度及质量,并且能描述其语境的上下文,揣测用户意图,调节检索结果排序。在此基础上设计并实现一个FDC主题爬虫系统,该系统采用改进的主题敏感FDC-PageRank算法来计算网页优先级。实验表明其效果良好。
引用
收藏
页码:286 / 288
页数:3
相关论文