共 2 条
基于JavaScript切片的AJAX框架网络爬虫技术研究
被引:10
作者:
曾伟辉
[1
,2
]
李淼
[1
]
机构:
[1] 中国科学院合肥智能机械研究所
[2] 中国科学技术大学 信息科学技术学院自动化系
来源:
关键词:
JavaScript;
程序切片;
网络爬虫;
有限状态机;
AJAX;
D O I:
暂无
中图分类号:
TP311.10 [];
学科分类号:
081202 ;
0835 ;
摘要:
自Jesse James Garrett提出了AJAX概念以来,由于AJAX在提升用户交互体验的同时,又不需要在客户端安装插件。因此,一经提出就引起了互联网领域的广泛关注。但目前的网络爬虫技术在AJAX框架的URL解析过程中存在着不能够识别事件触发顺序等问题,导致大量数据不能被搜索引擎有效检索。本文针对此问题,通过研究基于对象的程序切片算法,以及脚本执行引擎与切片模块的互操作,最终解决AJAX框架中URL提取以及异步JavaScript网络爬虫系统的关键技术问题。
引用
收藏
页码:169 / 171+137
+137
页数:4
相关论文