Hidden Web信息获取

被引:3
作者
陈珂 [1 ]
陈小英 [1 ]
徐科 [2 ]
机构
[1] 苏州市职业大学
[2] 苏州大学信息处理及应用研究所
关键词
Hidden Web; Hidden Web爬虫; 静态链接; 搜索引擎; 采样策略;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
如今Web上越来越多的信息可以通过查询接口获得,但为了获取某Hidden Web站点的页面,用户不得不键入一系列的关键词。由于没有直接指向Hidden Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,研究表明,由Hidden Web站点提供的高质量的信息对许多用户来说非常有价值。文章通过研究针对特定类型的表单,建立一个有效的Hidden Web爬虫,以便获取Hidden Web后台数据库信息。
引用
收藏
页码:54 / 56
页数:3
相关论文
共 3 条
  • [1] Copy de-tection system for digital documents. D.M.Campbell,W.R.Chen,and Randy D.Smith. . 2000
  • [2] Automated discovery of search interfaces on the web. J.Cope,N.Craswell,and D.Hawking. . 2003
  • [3] Crawling the hidden web. S.Raghavan,and H.Garcia-Molina. . 2001