基于RSS的博客采集系统的设计与实现

被引：8

作者：

刘莉

肖诗斌

王涛

施水才

机构：

[1] 北京信息科技大学中文信息处理研究中心

[2] 北京拓尔思信息技术有限公司

来源：

现代图书情报技术 | 2007年 / 11期

关键词：

RSS; 博客; 信息采集;

D O I：

暂无

中图分类号：

TP311.52 [];

学科分类号：

摘要：

提出一种基于RSS的博客采集系统实现方案。设计两个爬虫,一个负责广度优先遍历互联网,获取每个用户对应的RSS地址;另一个负责对每个RSS地址垂直搜索,跟踪检测是否有更新的博客文章,以增量方式将更新文章装入数据库。并为算法设计实现一个模型系统。

引用

页码：45 / 48

页数：4

共 6 条

[1] 关于MD5强度分析的研究 [J].

崔国华 ;

周荣华 ;

粟栗 .

计算机工程与科学, 2007, (01) :45-48

[2] RSS技术及其应用研究 [J].

张道银 ;

蔡瑞英 .

微计算机信息, 2006, (21) :281-283

[3] 高效DOM实现的技术研究 [J].

郭红艳 ;

杨波 ;

金蓓弘 .

计算机科学, 2006, (06) :274-277

[4] 两种对URL的散列效果很好的函数 [J].

李晓明 ;

凤旺森 .

软件学报, 2004, (02) :179-184

[5] 基于主题的Web信息采集系统的设计与实现 [J].

李盛韬 ;

赵章界 ;

余智华 .

计算机工程, 2003, (17) :102-104

[6]

Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)

← 1 →