基于关键词的深度万维网数据库选择

被引:11
作者
范举
周立柱
机构
[1] 清华大学计算机科学与技术系
基金
国家自然科学基金重点项目;
关键词
深度万维网; 万维网数据库; 关键词查询; 领域选择; 数据库选择;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
该文提出一种基于关键词的深度万维网查询方法:用户用关键词的方式提交查询,该方法在线地选择能够反映查询意图并且提供高质量结果的万维网数据库.这种方法既避免了深度万维网数据抓取这一代价高、难度大的操作,又可支持多领域的数据库上的关键词查询,从而能够与现有的搜索引擎实现无缝集成.文中侧重于讨论基于关键词的数据库选择,从以下两个方面解决这一问题所涉及的挑战:(1)提出了一种度量关键词-领域属性关联的相关性模型,并设计了基于随机游动的算法从查询日志中发现潜在的关键词-属性关联;(2)给出了一种新的数据采样方法,并用于基于采样的数据库-查询的相关性模型中,最终解决深度万维网的数据库选择问题.在中文深度万维网真实数据集上的实验表明:提出的方法能够有效地选择与关键词查询相关的数据库,提供高质量的结果.
引用
收藏
页码:1797 / 1804
页数:8
相关论文
共 4 条
[1]   中文深度万维网数据库的现状研究 [J].
刘玉奎 ;
周立柱 ;
范举 .
计算机学报, 2011, 34 (02) :360-370
[2]  
Automatic integration of Web search interfaces with WISE-Integrator[J] . Hai He,Weiyi Meng,Clement Yu,Zonghuan Wu.The VLDB Journal . 2004 (3)
[3]   Query-based sampling of text databases [J].
Callan, J ;
Connell, M .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2001, 19 (02) :97-130
[4]  
Light-weight Domain-based Form Assistant:Querying Web Databases On the Fly .2 Zhen Zhang,Bin He,Kevin Chen-Chuan Chang. VLDB2005 .