基于标记树对象抽取技术的Hidden Web获取研究

被引：9

作者：

宋晖

张岭

叶允明

马范援

不详

机构：

[1] 上海交通大学计算机系

[2] 上海交通大学计算机系上海

[3] 上海

[4] 上海

来源：

计算机工程与应用 | 2002年 / 23期

关键词：

Hidden Web; 信息检索; 对象抽取; 结构化查询; 标记树;

D O I：

暂无

中图分类号：

TP391.4 [模式识别与装置];

学科分类号：

0811 ; 081101 ; 081104 ; 1405 ;

摘要：

目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。

引用

页码：9 / 12+24 +24

页数：5