主题爬虫的解决方案

被引:11
作者
刘林
汪涛
樊孝忠
机构
[1] 北京理工大学计算机科学与工程系
[2] 北京理工大学计算机科学与工程系 北京 100081
关键词
搜索引擎; 主题爬虫; 相关度分析; 概念分析; 链接分析; 信息采集;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
对传统的综合性搜索引擎召回率和精确率低的问题,可以用主题爬虫取代其中的普通爬虫构建主题搜索引擎,为用户提供信息检索服务,满足用户伴随信息多元化的增长而不断扩展的信息需求.文中研究了主题爬虫设计中的相关度分析、概念分析和链接分析等关键技术,通过实验给出了一系列解决方案.结果表明,主题爬虫的精度高于普通爬虫,具有可行性与实用性,并有助于主题搜索引擎的设计和主题信息的采集.
引用
收藏
页码:137 / 141
页数:5
相关论文
共 3 条
  • [1] Google的PageRank技术剖析
    曹军
    [J]. 情报杂志 , 2002, (10) : 15 - 18
  • [2] 语言计算与基于内容的文本处理[M]. 清华大学出版社 , 孙茂松, 2003
  • [3] 网络机器人Java编程指南[M]. 电子工业出版社 , (美)JeffHeaton著, 2002