Deep Web数据采集查询构造方法研究

被引：2

作者：

林海伦 ^{[1
]}

杨晓刚 ^{[2
]}

熊锦华 ^{[1
]}

王元卓 ^{[1
]}

贾岩涛 ^{[1
]}

程学旗 ^{[1
]}

机构：

[1] 中国科学院计算技术研究所网络数据科学与技术重点实验室

[2] 新华社技术局实验室

来源：

计算机科学与探索 | 2015年 / 09期

基金：

北京市自然科学基金;

关键词：

Deep Web; 查询接口; 查询构造; 网络爬虫;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查询构造方法的优缺点,并对Deep Web数据采集查询构造方法的未来工作进行了展望,以推动Deep Web数据采集技术的进一步发展。

引用

页码：1025 / 1033

页数：9

共 7 条

[1] 网络大数据:现状与展望 [J].

王元卓 ;

靳小龙 ;

程学旗 .

计算机学报, 2013, 36 (06) :1125-1138

[2] 大数据管理:概念、技术与挑战 [J].

孟小峰 ;

慈祥 .

计算机研究与发展, 2013, 50 (01) :146-169

[3] Deep Web数据集成研究综述 [J].

刘伟 ;

孟小峰 ;

孟卫一 .

计算机学报, 2007, (09) :1475-1489

[4] Learning to crawl deep web [J].

Zheng, Qinghua ;

Wu, Zhaohui ;

Cheng, Xiaocheng ;

Jiang, Lu ;

Liu, Jun .

INFORMATION SYSTEMS, 2013, 38 (06) :801-819

[5]

Ontology Based Automatic Attributes Extracting and Queries Translating for Deep Web[J] . Hao Liang,Fei Ren,Wanli Zuo,Fengling He. Journal of Software . 2010 (7)

[6] Accessing the deep web [J].

He, Bin ;

Patel, Mitesh ;

Zhang, Zhen ;

Chang, Kevin Chen-Chuan .

COMMUNICATIONS OF THE ACM, 2007, 50 (05) :95-101

[7]

Structured databases on the web[J] . Kevin Chen-Chuan Chang,Bin He,Chengkai Li,Mitesh Patel,Zhen Zhang. ACM SIGMOD Record . 2004 (3)

← 1 →