共 5 条
基于改进PageRank的情报主题相关度预测策略
被引:1
作者:
韩宇
黄青松
机构:
[1] 昆明理工大学信息工程与自动化学院
来源:
关键词:
情报采集;
主题相关度;
重要度;
PageRank;
D O I:
暂无
中图分类号:
F272 [企业计划与经营决策];
学科分类号:
1201 ;
摘要:
选择恰当的情报主题相关度预测策略,控制采集情报质量为企业的决策提供正确有效的素材是面向主题的情报采集的核心技术之一。单一依靠文本或链接的情报主题相关度预测策略,不能准确有效地预测待爬网页的价值。该文提出一种基于主题的PageRank算法—Focused PageRank算法来计算网页URL优先级。该方法考虑了页面内容的主题相关度以提高抓取页面的质量,通过网页链接关系预测网页的重要度以提高情报采集的覆盖率。从而提高情报采集的速度和效率,实现不同情报主题下页面URL优先级排序,适应企业竞争情报系统对多主题情报信息的采集。
引用
收藏
页码:48 / 50+71
+71
页数:4
相关论文