社区网络爬虫的设计与实现

被引:10
作者
郭涛
黄铭钧
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
社区互联网; 智能爬虫; 数据挖掘;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
社区互联网是以用户创造内容为主的新型互联网,具有很高的统计价值,由于权限和数据更新频繁等限制,传统的网络爬虫很难获取这一部分数据,设计并实现了一种可以自动登录并可以根据更新频率快慢智能抓取数据的爬虫,不同于以往爬虫以页面为粒度,该爬虫以人为最小粒度,并以人与人之间的关系为抓取依据,在获取这类数据上有很好的性能。
引用
收藏
页码:65 / 67
页数:3
相关论文
共 1 条
[1]   网页变化与增量搜集技术 [J].
孟涛 ;
王继民 ;
闫宏飞 .
软件学报, 2006, (05) :1051-1067