XML关键字检索系统的数据源选择

被引:4
作者
朱冠胜
黄浩
杨卫东
机构
[1] 复旦大学计算机科学技术学院
关键词
XML; 数据源选择; 关键字检索;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
随着互联网数据爆炸式的增长,信息检索系统逐步采用分布式多数据源架构存储数据,在关键字检索时,选择与用户查询的关键字相关度大的数据源进行查询对提高检索效率显得格为重要.提出一种基于关键字检索的XML数据源选择方法,针对XML文档结构的层次特性,提出一种递归定义的结果评分模型,将结点的关键字频率与路径长度递归地加入到评分模型中,使得评分模型能够准确地评判结果的优劣.同时,利用评分模型定义并提取了XML数据源的摘要,并给出了摘要存储中涉及的压缩、优化、更新等问题的解决方案及算法.根据摘要信息,提出4种数据源选择的方案,并使用DBLP数据集来验证了文章所提出的数据源选择算法的有效性.
引用
收藏
页码:1183 / 1188
页数:6
相关论文
共 5 条
[1]   一种基于XLCA的XML关键字搜索方法 [J].
许建军 ;
汪卫 ;
施伯乐 .
小型微型计算机系统, 2008, (01) :52-56
[2]  
Data sources selection for XML data sources [J] . Hongzhi Wang,Jianzhong,Li,Jizhou,Luo.&nbsp&nbspInt. J. of Intelligent Information and Database S . 2008 (4)
[3]   Query-based sampling of text databases [J].
Callan, J ;
Connell, M .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2001, 19 (02) :97-130
[4]  
GlOSS [J] . Luis Gravano,Héctor García-Molina,Anthony Tomasic.&nbsp&nbspACM Transactions on Database Systems (TODS) . 1999 (2)
[5]  
Reasoning and Identifying Relevant Matches for XML Keyword Search .2 Z. Liu,Y. Chen. Proceedings of the International Conference on Very Large Data Bases . 2008