基于改进PageRank的情报主题相关度预测策略

被引:1
作者
韩宇
黄青松
机构
[1] 昆明理工大学信息工程与自动化学院
关键词
情报采集; 主题相关度; 重要度; PageRank;
D O I
暂无
中图分类号
F272 [企业计划与经营决策];
学科分类号
1201 ;
摘要
选择恰当的情报主题相关度预测策略,控制采集情报质量为企业的决策提供正确有效的素材是面向主题的情报采集的核心技术之一。单一依靠文本或链接的情报主题相关度预测策略,不能准确有效地预测待爬网页的价值。该文提出一种基于主题的PageRank算法—Focused PageRank算法来计算网页URL优先级。该方法考虑了页面内容的主题相关度以提高抓取页面的质量,通过网页链接关系预测网页的重要度以提高情报采集的覆盖率。从而提高情报采集的速度和效率,实现不同情报主题下页面URL优先级排序,适应企业竞争情报系统对多主题情报信息的采集。
引用
收藏
页码:48 / 50+71 +71
页数:4
相关论文
共 5 条
[1]   主题爬虫的搜索策略研究 [J].
刘汉兴 ;
刘财兴 .
计算机工程与设计, 2008, (12) :3160-3162+3166
[2]   企业竞争情报采集过程中的质量控制 [J].
许畅 .
情报科学 , 2008, (03) :404-408
[3]   基于Web结构挖掘的网络动态竞争情报采集研究 [J].
张玉峰 ;
吴金红 ;
王翠波 .
中国图书馆学报, 2007, (06) :62-64+95
[4]   面向主题的网络竞争情报采集系统 [J].
吴金红 ;
张玉峰 ;
王翠波 .
现代图书情报技术, 2006, (12) :54-57+61
[5]   聚焦爬虫技术研究综述 [J].
周立柱 ;
林玲 .
计算机应用, 2005, (09) :1965-1969