基于WEB挖掘的网络爬虫设计与实现

被引：30

作者：

肖毅 ^{[1
]}

张林 ^{[2
]}

聂笑一 ^{[1
]}

机构：

[1] 湖南农业大学信息科学技术学院

[2] 湖南农业大学东方科技学院

来源：

计算机系统应用 | 2013年 / 22卷 / 09期

关键词：

数据挖掘; Web爬虫; 挖掘技术;

D O I：

暂无

中图分类号：

TP391.3 [检索机];

学科分类号：

080201 [机械制造及其自动化];

摘要：

从介绍Web挖掘与数据挖掘的差异入手,分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向,在深入了解Web爬虫的原理及其功能的基础上,提出一个现代网站通用的挖掘模型,并利用该模型设计一种网络爬虫.经实例证明,该爬虫能高效爬取更多的各种页面数据.

引用

页码：60 / 63

页数：4

共 6 条

[1]

基于HTML标记用途分析的网页正文提取技术 [J].

常红要 ;

朱征宇 ;

陈烨 ;

张鹏 ;

曾丽芳 .

计算机工程与设计, 2010, 31 (24) :5187-5191

[2]

Web挖掘技术在搜索引擎中的应用 [J].

于海涛 .

齐齐哈尔师范高等专科学校学报, 2009, (06) :50-51

[3]

基于Web的网络爬虫的设计与实现 [J].

徐远超 ;

刘江华 ;

刘丽珍 ;

关永 .

微计算机信息, 2007, (21) :119-121

[4]

Web挖掘研究综述 [J].

朱丽红 ;

赵燕平 ;

不详 .

情报杂志 , 2004, (07) :2-5

[5]

自己动手写网络爬虫.[M].罗刚; 王振东; 编著.清华大学出版社.2010,

[6]

数据挖掘理论与技术.[M].苏新宁等著;.科学技术文献出版社.2003,

← 1 →