主题爬虫的解决方案

被引:44
作者
刘林
汪涛
樊孝忠
机构
[1] 北京理工大学计算机科学与工程系,北京理工大学计算机科学与工程系,北京理工大学计算机科学与工程系北京,北京,北京
关键词
搜索引擎; 主题爬虫; 相关度分析; 概念分析; 链接分析; 信息采集;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
摘要
对传统的综合性搜索引擎召回率和精确率低的问题,可以用主题爬虫取代其中的普通爬虫构建主题搜索引擎,为用户提供信息检索服务,满足用户伴随信息多元化的增长而不断扩展的信息需求.文中研究了主题爬虫设计中的相关度分析、概念分析和链接分析等关键技术,通过实验给出了一系列解决方案.结果表明,主题爬虫的精度高于普通爬虫,具有可行性与实用性,并有助于主题搜索引擎的设计和主题信息的采集.
引用
收藏
页码:137 / 141
页数:5
相关论文
共 3 条
[1]
Google的PageRank技术剖析 [J].
曹军 .
情报杂志, 2002, (10) :15-18
[2]
语言计算与基于内容的文本处理.[M].孙茂松;陈群秀主编;.清华大学出版社.2003,
[3]
网络机器人Java编程指南.[M].(美)JeffHeaton著;童兆丰等译;.电子工业出版社.2002,