网络爬虫在Web信息搜索与数据挖掘中应用

被引:39
作者
杨定中 [1 ,2 ]
赵刚 [1 ,2 ]
王泰 [1 ]
机构
[1] 华中师范大学教育部教育信息技术工程研究中心
[2] 华中师范大学信息技术系
关键词
Web搜索; Web挖掘; 网络爬虫; 体系结构; 应用;
D O I
10.16208/j.issn1000-7024.2009.24.010
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
分析了万维网不良网络信息对网络文化安全带来的挑战,提出了Web信息搜索与数据挖掘体系结构,并介绍了该体系结构中的关键技术和运行原理。分析了普通爬虫所实现的功能和不足之后,重点论述了该爬虫的工作原理、实现方式和性能分析以及该爬虫不同于其它爬虫的功能和在Web信息搜索与数据挖掘体系中应用。通过试验测试表明,该爬虫能够很好地获取万维网上的各种信息资源,有助于网络文化内容监测与管理。
引用
收藏
页码:5658 / 5662
页数:5
相关论文
共 8 条
[1]   主题爬虫的搜索策略研究 [J].
刘汉兴 ;
刘财兴 .
计算机工程与设计, 2008, (12) :3160-3162+3166
[2]   搜索引擎中信息动态采集策略的研究 [J].
高凯 .
电子学报, 2007, (10) :1984-1988
[3]   WEB搜索引擎.NET实现技术研究 [J].
蒋志刚 ;
叶勇 .
计算机应用与软件, 2007, (10) :156-157+168
[4]   网络文化安全及其监管关键技术研究 [J].
丁烈云 ;
赵刚 .
信息网络安全, 2007, (10) :28-30
[5]   基于Web的网络爬虫的设计与实现 [J].
徐远超 ;
刘江华 ;
刘丽珍 ;
关永 .
微计算机信息, 2007, (21) :119-121
[6]   搜索引擎技术研究与发展 [J].
印鉴 ;
陈忆群 ;
张钢 .
计算机工程, 2005, (14) :54-56+104
[7]   一种通用Web信息采集系统的设计与实现 [J].
吴丽辉 ;
王斌 ;
余智华 .
计算机工程, 2005, (03) :123-124+194
[8]   爬行虫算法设计与程序实现 [J].
杜亚军 ;
严兵 ;
宋亮 .
计算机应用, 2004, (01) :33-35