共 1 条
网络爬虫软件的研究与开发
被引:3
作者:
李琳琢
机构:
[1] 大连大窑湾边防检查站
来源:
关键词:
主题爬虫;
向量空间模型;
主题相关度;
爬虫阻止协议;
D O I:
暂无
中图分类号:
TP391.3 [检索机];
学科分类号:
081203 ;
0835 ;
摘要:
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。
引用
收藏
页码:142 / 144
页数:3
相关论文