主题搜索引擎中网络爬虫的搜索策略研究

被引:36
作者
李勇
韩亮
机构
[1] 大连海事大学计算机科学与技术学院
关键词
搜索引擎; 网络蜘蛛; 搜索策略; 主题提取;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法—EPR算法。
引用
收藏
页码:4 / 6+56 +56
页数:4
相关论文
共 7 条