基于改进k-medoids算法的XML文档聚类

被引:4
作者
冯少荣
潘炜炜
林子雨
机构
[1] 厦门大学信息科学与技术学院
关键词
XML文档聚类; 遗传算法; 模糊聚类; k-medoids聚类; 聚类个数; 聚类中心;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
XML文档由于其自身的可扩展性、半结构化和自描述性等特点,已成为数据表示和交换的数据格式标准。一个高效、快速的XML文档聚类机制能够大幅缩短信息检索时间,提高数据查询的效率,挖掘出潜在的信息价值。为此,提出一种改进的k-medoids算法对XML文档进行聚类。运用模糊聚类方法确定聚类个数,利用遗传算法的全局最优的搜索能力求解最佳聚类中心点或质心,从而提高大规模XML文档集的聚类质量。实验结果表明,与基于传统k-medoids算法的聚类方法相比,改进的聚类方法具有较高的聚类准确性和收敛度。
引用
收藏
页码:56 / 62
页数:7
相关论文
共 5 条
[1]   一种XML文档结构相似度计算方法 [J].
朴勇 ;
田伟 ;
王秀坤 .
控制与决策, 2010, 25 (04) :497-501
[2]  
XML数据管理.[M].孟小峰; 著.清华大学出版社.2009,
[3]  
遗传算法的基本理论与应用.[M].李敏强等著;.科学出版社.2002,
[4]  
A clustering method based on path similarities of XML data.[J].Ilhwan Choi;Bongki Moon;Hyoung-Joo Kim.Data & Knowledge Engineering.2006, 2
[5]  
A genetic <Emphasis Type="Italic">k</Emphasis>-medoids clustering algorithm.[J].Weiguo Sheng;Xiaohui Liu.Journal of Heuristics.2006, 6