MXDR:一种基于关键字的XML多文档分布式检索方法

被引:3
作者
李霞
李战怀
张利军
陈群
李宁
机构
[1] 西北工业大学计算机学院
关键词
XML多文档; 关键字检索; 结构检索; 分布式;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
基于关键字的XML检索技术是近几年信息检索领域的研究热点。但是由于关键字缺少XML结构语义信息,检索结果和用户需求偏差较大,检索质量难以提高;而XML结构检索由于用户难以提出准确描述查询意图的查询表达式而难以普及。另一个更突出的问题是现有的XML检索研究绝大多数都集中在单文档上,缺乏实用性。因此提出一种基于关键字的结构检索方法,即用分布式方式实现对多XML文档的检索,简称为MXDR(Multi-XMLDistributed Retrieval)。MXDR首先用一种兼顾结构和内容的聚类方法对多文档进行分类,通过分析查询关键字和类别结构信息,确定分布查找策略,再结合查询关键字和XML的结构信息,构建结构查询语句,最后通过结构查询系统实现关键字检索。在多组真实数据Sigmod数据集上的验证结果表明,与经典的SLCA方法比较,MXDR方法具有较高的查全率和查准率,尤其在检索效率上MXDR方法有显著优势。
引用
收藏
页码:152 / 156
页数:5
相关论文
共 7 条
[1]   XML关键字检索中推断用户需求信息对象的方法XObject [J].
李霞 ;
李战怀 ;
陈群 ;
王鹏 ;
娄颖 .
西北工业大学学报, 2010, 28 (04) :602-608
[2]  
数据挖掘[M]. 机械工业出版社 , (加)JiaweiHan, 2001
[3]  
Efficient keyword search over virtual XML views[J] . Feng Shao,Lin Guo,Chavdar Botev,Anand Bhaskar,Muthiah Chettiar,Fan Yang,Jayavel Shanmugasundaram.The VLDB Journal . 2009 (2)
[4]  
TopX: efficient and versatile top- k query processing for semistructured data[J] . Martin Theobald,Holger Bast,Debapriyo Majumdar,Ralf Schenkel,Gerhard Weikum.The VLDB Journal . 2007 (1)
[5]   Bayesian network model for semi-structured document classification [J].
Denoyer, L ;
Gallinari, P .
INFORMATION PROCESSING & MANAGEMENT, 2004, 40 (05) :807-827
[6]  
Efficient Keyword Search for Smallest LCAs in XML Databases .2 Xu Y,Papakonstantinou Y. Proc of SIGMOD2005 . 2005
[7]  
Reasoning and identifying relevant matches forXML keyword search .2 Liu Z,Cher Y. Proc.VLDB Endow . 2008