Deep Web数据采集查询构造方法研究

被引:2
作者
林海伦 [1 ]
杨晓刚 [2 ]
熊锦华 [1 ]
王元卓 [1 ]
贾岩涛 [1 ]
程学旗 [1 ]
机构
[1] 中国科学院计算技术研究所网络数据科学与技术重点实验室
[2] 新华社技术局实验室
基金
北京市自然科学基金;
关键词
Deep Web; 查询接口; 查询构造; 网络爬虫;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查询构造方法的优缺点,并对Deep Web数据采集查询构造方法的未来工作进行了展望,以推动Deep Web数据采集技术的进一步发展。
引用
收藏
页码:1025 / 1033
页数:9
相关论文
共 7 条
[1]   网络大数据:现状与展望 [J].
王元卓 ;
靳小龙 ;
程学旗 .
计算机学报, 2013, 36 (06) :1125-1138
[2]   大数据管理:概念、技术与挑战 [J].
孟小峰 ;
慈祥 .
计算机研究与发展, 2013, 50 (01) :146-169
[3]   Deep Web数据集成研究综述 [J].
刘伟 ;
孟小峰 ;
孟卫一 .
计算机学报, 2007, (09) :1475-1489
[4]   Learning to crawl deep web [J].
Zheng, Qinghua ;
Wu, Zhaohui ;
Cheng, Xiaocheng ;
Jiang, Lu ;
Liu, Jun .
INFORMATION SYSTEMS, 2013, 38 (06) :801-819
[5]  
Ontology Based Automatic Attributes Extracting and Queries Translating for Deep Web[J] . Hao Liang,Fei Ren,Wanli Zuo,Fengling He. Journal of Software . 2010 (7)
[6]   Accessing the deep web [J].
He, Bin ;
Patel, Mitesh ;
Zhang, Zhen ;
Chang, Kevin Chen-Chuan .
COMMUNICATIONS OF THE ACM, 2007, 50 (05) :95-101
[7]  
Structured databases on the web[J] . Kevin Chen-Chuan Chang,Bin He,Chengkai Li,Mitesh Patel,Zhen Zhang. ACM SIGMOD Record . 2004 (3)