一种基于状态转换图的Ajax爬行算法

被引:6
作者
郭浩
陆余良
刘金红
机构
[1] 电子工程学院网络系
关键词
Ajax爬虫; 状态转换图; Web爬虫; Deep Web;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
传统Web爬虫无法解决爬行Ajax应用所面临的JavaScript执行、状态识别与切换、重复状态检测等问题。为此,首先定义Ajax应用的状态转换图,并设计了一种基于状态转换图的Ajax爬行算法,通过该算法可以获取Ajax应用状态信息和后台DeepWeb资源。为了提高Ajax爬行的准确性、减少待爬行的状态数目,使用Ajax指纹识别、DOM结构过滤等方法改进上述算法。实验结果表明了算法的有效性和性能。
引用
收藏
页码:4266 / 4269
页数:4
相关论文
共 6 条
[1]  
Crawling Ajax by infer-ring user interface state changes. MESBAHA,BOZDAG E,van DEURSEN A. Proc of the8th International Conference on Web Engineering . 2008
[2]  
Ajax tools usage survey results. Ajaxian Community. http://ajaxian.com/archives/2007-ajax-tools-usage-survey-results/ . 2008
[3]  
Crawling Ajax-driven Web2.0applications. SHAHS. . 2007
[4]  
Indexing Ajax Web applications. FREY G. . 2007
[5]  
Ajax crawl:making Ajax applications searchable. MATTER R. . 2008
[6]  
Ajax:a new approach to Web applications. GARRETTJ J. http://www.adaptivepath.com/publications/essays/archives/000385.php . 2008