基于标记树对象抽取技术的Hidden Web获取研究

被引:9
作者
宋晖
张岭
叶允明
马范援
不详
机构
[1] 上海交通大学计算机系
[2] 上海交通大学计算机系 上海
[3] 上海
[4] 上海
关键词
Hidden Web; 信息检索; 对象抽取; 结构化查询; 标记树;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。
引用
收藏
页码:9 / 12+24 +24
页数:5
相关论文
共 1 条