PBC:一种基于路径的XML文档聚类方法

被引:2
作者
梁作鹏
业宁
董逸生
机构
[1] 东南大学计算机科学与工程系
关键词
XML; 信息检索; 文档聚类;
D O I
暂无
中图分类号
TP311.11 [];
学科分类号
摘要
提出了一种基于路径的XML文档结构聚类方法(PBC).与其他方法直接计算XML文档结构距离不同,该方法通过对文档包含的路径聚类,间接完成文档的聚类.首先,包含某一路径的文档集合形成初始类,并用该路径作为初始类的标识.然后,用层次聚类方法根据设定的标准,合并初始类,直至结束.类的标识信息是类中文档包含的路径,结果直观,容易理解.算法的复杂度是O(n),其中n是文档的大小.相关实验证明该算法不但能保证聚类结果准确,而且能大幅度提高计算的速度.
引用
收藏
页码:399 / 403
页数:5
相关论文
empty
未找到相关数据