基于WEB挖掘的网络爬虫设计与实现

被引:30
作者
肖毅 [1 ]
张林 [2 ]
聂笑一 [1 ]
机构
[1] 湖南农业大学信息科学技术学院
[2] 湖南农业大学东方科技学院
关键词
数据挖掘; Web爬虫; 挖掘技术;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
080201 [机械制造及其自动化];
摘要
从介绍Web挖掘与数据挖掘的差异入手,分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向,在深入了解Web爬虫的原理及其功能的基础上,提出一个现代网站通用的挖掘模型,并利用该模型设计一种网络爬虫.经实例证明,该爬虫能高效爬取更多的各种页面数据.
引用
收藏
页码:60 / 63
页数:4
相关论文
共 6 条
[1]
基于HTML标记用途分析的网页正文提取技术 [J].
常红要 ;
朱征宇 ;
陈烨 ;
张鹏 ;
曾丽芳 .
计算机工程与设计, 2010, 31 (24) :5187-5191
[2]
Web挖掘技术在搜索引擎中的应用 [J].
于海涛 .
齐齐哈尔师范高等专科学校学报, 2009, (06) :50-51
[3]
基于Web的网络爬虫的设计与实现 [J].
徐远超 ;
刘江华 ;
刘丽珍 ;
关永 .
微计算机信息, 2007, (21) :119-121
[4]
Web挖掘研究综述 [J].
朱丽红 ;
赵燕平 ;
不详 .
情报杂志 , 2004, (07) :2-5
[5]
自己动手写网络爬虫.[M].罗刚; 王振东; 编著.清华大学出版社.2010,
[6]
数据挖掘理论与技术.[M].苏新宁等著;.科学技术文献出版社.2003,