使用分类器自动发现特定领域的深度网入口(英文)

被引:15
作者
王辉
刘艳威
左万利
机构
[1] 吉林大学计算机科学与技术学院
[2] 吉林大学计算机科学与技术学院 吉林长春
关键词
深度网; 表层网; 深度网入口; 搜索表单;
D O I
暂无
中图分类号
TP393.01 [];
学科分类号
081201 ; 1201 ;
摘要
在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提供大量高质量的信息,并且,深度网正在逐渐成为一个最重要的信息资源.提出了一个三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以方便他们查询信息.通过8组大规模的实验,验证了所提出的方法可以准确高效地发现特定领域的深度网入口.
引用
收藏
页码:246 / 256
页数:11
相关论文
共 26 条
[1]  
Query selection techniques for efficient crawling of structured Web sources. Wu P,Wen JR,Liu H,Ma WY. Proc. of the Int’l Conf. on Data Mining (ICDE) . 2006
[2]  
Mining data records in Web pages. Liu B,Grossman R,Zhai YH. Proc. of the Knowledge Discovery and Data Mining (KDD) . 2003
[3]  
Automatically mining result records from search engine response pages. Mundluru D,Katukuri JR,Celebi S. Proc. of the Int’l Conf. on Data Mining (ICDM) . 2005
[4]  
A two-phase sampling technique for information extraction from hidden Web databases. Hedley YL,Younas M,James A,Sanderson M. Proc. of the Int’l Workshop on Web Information and Data Management (WIDM) . 2004
[5]  
Automatic generation of deep Web wrappers based on discovery of repetition. Nakatoh T,Yamada Y,Hirokawa S. Proc. of the Asia Information Retrieval Symp. (AIRS) . 2004
[6]  
MetaQuerier: Querying structured Web sources on-the-fly. He B,Zhang Z,Chang KCC. Proc. of the SIGMOD Conf . 2005
[7]  
Mind your vocabulary: Query mapping across heterogeneous information sources. Chang KCC,Garcia-Molina H. Proc. of the SIGMOD Conf . 1999
[8]  
WISE-Integrator: A system for extracting and integrating complex Web search interfaces of the deep Web. He H,Meng WY,Yu CT,Wu ZH. Proc. of the Int’l Conf. on Very Large Data Bases (VLDB) . 2005
[9]  
Merging interface schemas on the deep Web via clustering aggregation. Wu W,Doan A,Yu CT. Proc. of the Int’l Conf. on Data Mining (ICDM) . 2005
[10]  
MetaQuerier over the deep Web: Shallow integration across holistic sources. Chang KCC,He B,Zhang Z. Proc. of the Int’l Conf. on Very Large Data Bases (VLDB) . 2004