共 1 条
基于标记树对象抽取技术的Hidden Web获取研究
被引:9
作者:
宋晖
张岭
叶允明
马范援
不详
机构:
[1] 上海交通大学计算机系
[2] 上海交通大学计算机系 上海
[3] 上海
[4] 上海
来源:
关键词:
Hidden Web;
信息检索;
对象抽取;
结构化查询;
标记树;
D O I:
暂无
中图分类号:
TP391.4 [模式识别与装置];
学科分类号:
0811 ;
081101 ;
081104 ;
1405 ;
摘要:
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。
引用
收藏
页码:9 / 12+24
+24
页数:5
相关论文