一种XML文档结构相似度计算方法

被引:4
作者
朴勇 [1 ,2 ]
田伟 [1 ]
王秀坤 [2 ]
机构
[1] 大连理工大学软件学院
[2] 大连理工大学电信学院
关键词
结构相似度; 位置权重; 最长公共子序列;
D O I
10.13195/j.cd.2010.04.19.piaoy.008
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
对XML文档树路径模型进行扩展,加入了路径的频率信息.基于此路径-频率模型,提出一种带有位置仅重的基于路径的结构相似度计算方法(WLCS),并在此基础上提出基于路径频率的XML文档结构向量化方法.在真实数据集上的实验结果表明,WLCS方法召回率和准确率均高于当前存在的基于路径计算相似度的方法,适合于对来自不同DTD的XML文档的相似度比较.
引用
收藏
页码:497 / 501
页数:5
相关论文
共 4 条
[1]  
WordNet[J] . George A. Miller.Communications of the ACM . 1995 (11)
[2]  
A Bag of Paths Model for Measuring Structural Similarity in Web Documents. Sachindra Joshi,Neeraj Agrawal,Raghu Krishnapuram and Sumit Negi. . 2003
[3]  
Classification of XSLT-generated web documents with support vector machines. Kurt A,Tozal E. KNOWLEDGE DISCOVERY FROM XML DOCUMENTS,PROCEEDINGS . 2006
[4]  
A progressive clustering algorithm to group the XML data by structural and semantic similarity. Tran Tien,Nayak Richi. Int J of Pattern Recognition and Artificial Intelligence . 2007