Web新闻自动采集发布系统的设计与实现

被引:18
作者
张春元
康耀红
伍小芹
机构
[1] 海南大学信息科学技术学院
基金
海南省自然科学基金;
关键词
网络爬虫; 网页去噪; 文档消重; Web新闻发布;
D O I
暂无
中图分类号
TP311.52 [];
学科分类号
摘要
针对新闻网站通过人工方式采集发布来自其它网站的Web新闻费时费力、易重采与漏采这一问题,综合运用Web信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫的Web新闻自动采集发布系统。在给出系统总体结构的基础上,对其各个模块的功能、设计与实现方法进行了详细介绍。实验表明,该系统设计合理,具有采集效率高、消重准确、集成方便、运行费用低等优点,可作为新闻网站的采编工具加以推广使用。
引用
收藏
页码:250 / 253
页数:4
相关论文
共 8 条
[1]
网页排重技术研究及应用 [D]. 
白广慧 .
中国科学院研究生院(计算技术研究所),
2006
[2]
基于主题的Web信息采集技术研究 [D]. 
李盛韬 .
中国科学院研究生院(计算技术研究所),
2002
[3]
主题网络爬虫研究综述 [J].
刘金红 ;
陆余良 .
计算机应用研究, 2007, (10) :26-29+47
[4]
一种基于块分析的网页去噪音方法 [J].
刘晨曦 ;
吴扬扬 .
广西师范大学学报(自然科学版), 2007, (02) :149-152
[5]
基于交叉覆盖算法的文本分类 [J].
王倩倩 ;
段震 ;
张燕平 .
计算机技术与发展, 2007, (06) :113-115
[6]
模板化网页主题信息的提取方法 [J].
欧健文 ;
董守斌 ;
蔡斌 .
清华大学学报(自然科学版), 2005, (自然科学版) :1743-1747
[7]
基于特征串的大规模中文网页快速去重算法研究 [J].
吴平博 ;
陈群秀 ;
马亮 .
中文信息学报, 2003, (02) :28-35
[8]
搜索引擎.[M].李晓明;闫宏飞;王继民著;.科学出版社.2005,