Deep Web爬虫研究与设计

被引:107
作者
郑冬冬
赵朋朋
崔志明
机构
[1] 苏州大学计算机科学与技术系,苏州大学计算机科学与技术系,苏州大学计算机科学与技术系苏州,苏州,苏州
关键词
DeepWeb; 导航模式; 领域本体知识库; 爬虫;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.036
中图分类号
TP393.09 [];
学科分类号
摘要
随着W eb的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由D eep W eb后台数据库动态产生的。在这种情况下,信息集成就更加需要W eb爬虫来自动获取这些页面以进一步地处理数据。为了帮助用户完成这样的任务,提出一种用于搜集D eep W eb页面的爬虫的设计方法。此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自W eb站点的导航模式来识别自动填写表单时所需进行的路径导航。通过对来自不同领域的D eep W eb站点的大量实验,验证了此方法是非常有效的。
引用
收藏
页码:1896 / 1902
页数:7
相关论文
empty
未找到相关数据