BBS舆情系统的数据采集方法

被引:13
作者
赵颖斯
刘云
机构
[1] 北京交通大学通信与信息系统北京市重点实验室
关键词
电子公告板; 网络舆情; 数据采集; 分布式存储;
D O I
暂无
中图分类号
TP393.094 [];
学科分类号
摘要
互联网的广泛应用使得网络舆论成为社会舆论的重要组成部分,如何实现对网络舆论的监测成为当前的研究热点。文章研究了以电子公告板系统(BBS)为对象的舆情监测系统的功能和结构,重点讨论了系统中的数据采集部分,给出了解决数据采集性能的URL队列管理、抓取线程管理、冗余URL排除、页面过滤和解析以及数据的分布式存储等问题的方法。
引用
收藏
页码:22 / 24
页数:3
相关论文
共 3 条
[1]
利用超链接信息改进网页爬行器的搜索策略 [J].
赫枫龄 ;
左万利 .
吉林大学学报(信息科学版), 2005, (01) :59-63
[2]
基于WWW的文本信息挖掘 [J].
邹涛 ;
黄源 ;
张福炎 .
情报学报, 1999, (04) :289-293
[3]
分布式网络爬虫技术的研究与实现 [D]. 
苏旋 .
哈尔滨工业大学,
2006