权吸引子传播算法及其在文本聚类中的应用

被引:10
作者
管仁初 [1 ,2 ]
裴志利 [3 ]
时小虎 [1 ,2 ,4 ]
杨晨 [5 ]
梁艳春 [1 ,2 ]
机构
[1] 吉林大学计算机科学与技术学院
[2] 符号计算与知识工程教育部重点实验室(吉林大学)
[3] 内蒙古民族大学计算机科学与技术学院
[4] 计算机软件新技术国家重点实验室(南京大学)
[5] 吉林大学地球科学学院
关键词
吸引子传播算法; 相似特征集; 排斥特征集; 仲裁特征集; 文本聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
吸引子传播算法(affinity propagation,AP)是一种新的高效聚类算法.由于AP算法简单易用,它已被广泛应用到数据挖掘的各个领域.在AP算法中,相似性度量具有重要作用.另一方面,传统的文本挖掘常采用向量空间模型和满足欧氏空间的相似性度量.这种方法的优点是简单且易于实现,但随着数据规模的膨胀,向量空间将变得高维稀疏并将导致计算复杂度快速增长.为解决此问题,给出了相似特征集、排斥特征集和仲裁特征集的概念,在这些概念的基础上提出了一种能够包含文本结构信息的非欧空间相似性度量方法.并提出了一种新的聚类算法,称之为权吸引子传播算法(weight affinity propagation,WAP).为检验提出算法的聚类效果,选用标准数据集Reuters-21578进行了验证.实验结果表明WAP明显优于k-means聚类算法、具备非线性特征的SOFM聚类算法和采用经典相似性度量的吸引子传播算法等3种经典聚类算法.
引用
收藏
页码:1733 / 1740
页数:8
相关论文
共 4 条
[1]   自适应仿射传播聚类 [J].
王开军 ;
张军英 ;
李丹 ;
张新娜 ;
郭涛 .
自动化学报, 2007, (12) :1242-1246
[2]   一种高效的用于文本聚类的无监督特征选择算法 [J].
刘涛 ;
吴功宜 ;
陈正 ;
不详 .
计算机研究与发展 , 2005, (03) :381-386
[3]   文本聚类中权重计算的对偶性策略 [J].
卜东波 ;
白硕 ;
李国杰 .
软件学报, 2002, (11) :2083-2089
[4]  
Top 10 algorithms in data mining[J] . Xindong Wu,Vipin Kumar,J. Ross Quinlan,Joydeep Ghosh,Qiang Yang,Hiroshi Motoda,Geoffrey J. McLachlan,Angus Ng,Bing Liu,Philip S. Yu,Zhi-Hua Zhou,Michael Steinbach,David J. Hand,Dan Steinberg.Knowledge and Information Systems . 2009 (1)