基于RSS的博客采集系统的设计与实现

被引:8
作者
刘莉
肖诗斌
王涛
施水才
机构
[1] 北京信息科技大学中文信息处理研究中心
[2] 北京拓尔思信息技术有限公司
关键词
RSS; 博客; 信息采集;
D O I
暂无
中图分类号
TP311.52 [];
学科分类号
摘要
提出一种基于RSS的博客采集系统实现方案。设计两个爬虫,一个负责广度优先遍历互联网,获取每个用户对应的RSS地址;另一个负责对每个RSS地址垂直搜索,跟踪检测是否有更新的博客文章,以增量方式将更新文章装入数据库。并为算法设计实现一个模型系统。
引用
收藏
页码:45 / 48
页数:4
相关论文
共 6 条
[1]   关于MD5强度分析的研究 [J].
崔国华 ;
周荣华 ;
粟栗 .
计算机工程与科学, 2007, (01) :45-48
[2]   RSS技术及其应用研究 [J].
张道银 ;
蔡瑞英 .
微计算机信息, 2006, (21) :281-283
[3]   高效DOM实现的技术研究 [J].
郭红艳 ;
杨波 ;
金蓓弘 .
计算机科学, 2006, (06) :274-277
[4]   两种对URL的散列效果很好的函数 [J].
李晓明 ;
凤旺森 .
软件学报, 2004, (02) :179-184
[5]   基于主题的Web信息采集系统的设计与实现 [J].
李盛韬 ;
赵章界 ;
余智华 .
计算机工程, 2003, (17) :102-104
[6]  
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)