基于编辑距离的XML文档结构聚类的改进算法

被引:1
作者
龚安
刘华山
机构
[1] 中国石油大学计算机与通信工程学院
关键词
XML; 编辑距离; 结构聚类; 改进算法;
D O I
暂无
中图分类号
TP312.2 [];
学科分类号
摘要
针对当前XML文档结构聚类算法的一些不足,指出XML文档树中节点的重复和嵌套影响聚类的质量和效率。利用重复剪枝和嵌套剪枝简化XML文档树的表示,然后根据化简后的结构计算两棵XML文档树中的编辑距离,在此基础上得出两棵树整体的结构相似度量,按照层次聚类方法得到聚类结果。实验证明该算法有比较高的查全率和查准率,有效降低了时间复杂性,具有改进效果。
引用
收藏
页码:88 / 91
页数:4
相关论文
共 4 条
  • [1] XTRACT:a system for extracting document type descriptors from XML documents. M.Garofalakis,A.Gionis,R.Rastogi,S.Seshadri,K.Shim. Proceedings of the ACM SIGMOD Conference . 2000
  • [2] Using a structural distance metric to cluster xml documents by structure. T.Dalamagas,T.Cheng,K.J.Winkel,T.Sellis. Proceedings of the EDBTWorkshop on Clustering Information over the Web(ClustWeb04) . 2004
  • [3] The tree-to-tree editing problem. Selkow,S.M. Information Processing Letters . 1977
  • [4] Simple fast algorithms for the editing distance between trees and related problems. Zhang K,Shasha D. SIAM Journal on Computing . 1989