学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于RSS的博客采集系统的设计与实现
被引:8
作者
:
刘莉
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学中文信息处理研究中心
刘莉
论文数:
引用数:
h-index:
机构:
肖诗斌
王涛
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学中文信息处理研究中心
王涛
论文数:
引用数:
h-index:
机构:
施水才
机构
:
[1]
北京信息科技大学中文信息处理研究中心
[2]
北京拓尔思信息技术有限公司
来源
:
现代图书情报技术
|
2007年
/ 11期
关键词
:
RSS;
博客;
信息采集;
D O I
:
暂无
中图分类号
:
TP311.52 [];
学科分类号
:
摘要
:
提出一种基于RSS的博客采集系统实现方案。设计两个爬虫,一个负责广度优先遍历互联网,获取每个用户对应的RSS地址;另一个负责对每个RSS地址垂直搜索,跟踪检测是否有更新的博客文章,以增量方式将更新文章装入数据库。并为算法设计实现一个模型系统。
引用
收藏
页码:45 / 48
页数:4
相关论文
共 6 条
[1]
关于MD5强度分析的研究
[J].
论文数:
引用数:
h-index:
机构:
崔国华
;
周荣华
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院
周荣华
;
论文数:
引用数:
h-index:
机构:
粟栗
.
计算机工程与科学,
2007,
(01)
:45
-48
[2]
RSS技术及其应用研究
[J].
论文数:
引用数:
h-index:
机构:
张道银
;
论文数:
引用数:
h-index:
机构:
蔡瑞英
.
微计算机信息,
2006,
(21)
:281
-283
[3]
高效DOM实现的技术研究
[J].
郭红艳
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
郭红艳
;
杨波
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
杨波
;
论文数:
引用数:
h-index:
机构:
金蓓弘
.
计算机科学,
2006,
(06)
:274
-277
[4]
两种对URL的散列效果很好的函数
[J].
李晓明
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
李晓明
;
凤旺森
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
凤旺森
.
软件学报,
2004,
(02)
:179
-184
[5]
基于主题的Web信息采集系统的设计与实现
[J].
李盛韬
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
李盛韬
;
赵章界
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
赵章界
;
余智华
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
余智华
.
计算机工程,
2003,
(17)
:102
-104
[6]
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)
←
1
→
共 6 条
[1]
关于MD5强度分析的研究
[J].
论文数:
引用数:
h-index:
机构:
崔国华
;
周荣华
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院
周荣华
;
论文数:
引用数:
h-index:
机构:
粟栗
.
计算机工程与科学,
2007,
(01)
:45
-48
[2]
RSS技术及其应用研究
[J].
论文数:
引用数:
h-index:
机构:
张道银
;
论文数:
引用数:
h-index:
机构:
蔡瑞英
.
微计算机信息,
2006,
(21)
:281
-283
[3]
高效DOM实现的技术研究
[J].
郭红艳
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
郭红艳
;
杨波
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
杨波
;
论文数:
引用数:
h-index:
机构:
金蓓弘
.
计算机科学,
2006,
(06)
:274
-277
[4]
两种对URL的散列效果很好的函数
[J].
李晓明
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
李晓明
;
凤旺森
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
凤旺森
.
软件学报,
2004,
(02)
:179
-184
[5]
基于主题的Web信息采集系统的设计与实现
[J].
李盛韬
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
李盛韬
;
赵章界
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
赵章界
;
余智华
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
余智华
.
计算机工程,
2003,
(17)
:102
-104
[6]
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)
←
1
→