学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
Web新闻自动采集发布系统的设计与实现
被引:18
作者
:
论文数:
引用数:
h-index:
机构:
张春元
论文数:
引用数:
h-index:
机构:
康耀红
论文数:
引用数:
h-index:
机构:
伍小芹
机构
:
[1]
海南大学信息科学技术学院
来源
:
计算机技术与发展
|
2009年
/ 19卷
/ 09期
基金
:
海南省自然科学基金;
关键词
:
网络爬虫;
网页去噪;
文档消重;
Web新闻发布;
D O I
:
暂无
中图分类号
:
TP311.52 [];
学科分类号
:
摘要
:
针对新闻网站通过人工方式采集发布来自其它网站的Web新闻费时费力、易重采与漏采这一问题,综合运用Web信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫的Web新闻自动采集发布系统。在给出系统总体结构的基础上,对其各个模块的功能、设计与实现方法进行了详细介绍。实验表明,该系统设计合理,具有采集效率高、消重准确、集成方便、运行费用低等优点,可作为新闻网站的采编工具加以推广使用。
引用
收藏
页码:250 / 253
页数:4
相关论文
共 8 条
[1]
网页排重技术研究及应用
[D].
白广慧
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院(计算技术研究所)
中国科学院研究生院(计算技术研究所)
白广慧
.
中国科学院研究生院(计算技术研究所),
2006
[2]
基于主题的Web信息采集技术研究
[D].
李盛韬
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院(计算技术研究所)
中国科学院研究生院(计算技术研究所)
李盛韬
.
中国科学院研究生院(计算技术研究所),
2002
[3]
主题网络爬虫研究综述
[J].
刘金红
论文数:
0
引用数:
0
h-index:
0
机构:
解放军电子工程学院网络系
刘金红
;
陆余良
论文数:
0
引用数:
0
h-index:
0
机构:
解放军电子工程学院网络系
陆余良
.
计算机应用研究,
2007,
(10)
:26
-29+47
[4]
一种基于块分析的网页去噪音方法
[J].
刘晨曦
论文数:
0
引用数:
0
h-index:
0
机构:
华侨大学信息科学与工程学院
刘晨曦
;
吴扬扬
论文数:
0
引用数:
0
h-index:
0
机构:
华侨大学信息科学与工程学院
吴扬扬
.
广西师范大学学报(自然科学版),
2007,
(02)
:149
-152
[5]
基于交叉覆盖算法的文本分类
[J].
王倩倩
论文数:
0
引用数:
0
h-index:
0
机构:
安徽大学计算智能与信号处理重点实验室
王倩倩
;
论文数:
引用数:
h-index:
机构:
段震
;
论文数:
引用数:
h-index:
机构:
张燕平
.
计算机技术与发展,
2007,
(06)
:113
-115
[6]
模板化网页主题信息的提取方法
[J].
欧健文
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室,华南理工大学广东省计算机网络重点实验室,华南理工大学广东省计算机网络重点实验室广州,广州,广州
欧健文
;
论文数:
引用数:
h-index:
机构:
董守斌
;
蔡斌
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室,华南理工大学广东省计算机网络重点实验室,华南理工大学广东省计算机网络重点实验室广州,广州,广州
蔡斌
.
清华大学学报(自然科学版),
2005,
(自然科学版)
:1743
-1747
[7]
基于特征串的大规模中文网页快速去重算法研究
[J].
论文数:
引用数:
h-index:
机构:
吴平博
;
论文数:
引用数:
h-index:
机构:
陈群秀
;
马亮
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室,智能技术与系统国家重点实验室,智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京,清华大学计算机科学与技术系,北京,清华大学计算机科学与技术系,北京
马亮
.
中文信息学报,
2003,
(02)
:28
-35
[8]
搜索引擎.[M].李晓明;闫宏飞;王继民著;.科学出版社.2005,
←
1
→
共 8 条
[1]
网页排重技术研究及应用
[D].
白广慧
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院(计算技术研究所)
中国科学院研究生院(计算技术研究所)
白广慧
.
中国科学院研究生院(计算技术研究所),
2006
[2]
基于主题的Web信息采集技术研究
[D].
李盛韬
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院(计算技术研究所)
中国科学院研究生院(计算技术研究所)
李盛韬
.
中国科学院研究生院(计算技术研究所),
2002
[3]
主题网络爬虫研究综述
[J].
刘金红
论文数:
0
引用数:
0
h-index:
0
机构:
解放军电子工程学院网络系
刘金红
;
陆余良
论文数:
0
引用数:
0
h-index:
0
机构:
解放军电子工程学院网络系
陆余良
.
计算机应用研究,
2007,
(10)
:26
-29+47
[4]
一种基于块分析的网页去噪音方法
[J].
刘晨曦
论文数:
0
引用数:
0
h-index:
0
机构:
华侨大学信息科学与工程学院
刘晨曦
;
吴扬扬
论文数:
0
引用数:
0
h-index:
0
机构:
华侨大学信息科学与工程学院
吴扬扬
.
广西师范大学学报(自然科学版),
2007,
(02)
:149
-152
[5]
基于交叉覆盖算法的文本分类
[J].
王倩倩
论文数:
0
引用数:
0
h-index:
0
机构:
安徽大学计算智能与信号处理重点实验室
王倩倩
;
论文数:
引用数:
h-index:
机构:
段震
;
论文数:
引用数:
h-index:
机构:
张燕平
.
计算机技术与发展,
2007,
(06)
:113
-115
[6]
模板化网页主题信息的提取方法
[J].
欧健文
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室,华南理工大学广东省计算机网络重点实验室,华南理工大学广东省计算机网络重点实验室广州,广州,广州
欧健文
;
论文数:
引用数:
h-index:
机构:
董守斌
;
蔡斌
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室,华南理工大学广东省计算机网络重点实验室,华南理工大学广东省计算机网络重点实验室广州,广州,广州
蔡斌
.
清华大学学报(自然科学版),
2005,
(自然科学版)
:1743
-1747
[7]
基于特征串的大规模中文网页快速去重算法研究
[J].
论文数:
引用数:
h-index:
机构:
吴平博
;
论文数:
引用数:
h-index:
机构:
陈群秀
;
马亮
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室,智能技术与系统国家重点实验室,智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京,清华大学计算机科学与技术系,北京,清华大学计算机科学与技术系,北京
马亮
.
中文信息学报,
2003,
(02)
:28
-35
[8]
搜索引擎.[M].李晓明;闫宏飞;王继民著;.科学出版社.2005,
←
1
→