基于向量内积不等式的分布式k均值聚类算法

被引:12
作者
倪巍伟
陆介平
孙志挥
机构
[1] 东南大学计算机科学与工程系,东南大学计算机科学与工程系,东南大学计算机科学与工程系南京,南京,南京
基金
高等学校博士学科点专项科研基金;
关键词
分布式聚类; 数据点的模; 向量内积; 向量内积不等式;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
聚类分析是数据挖掘领域的一项重要研究课题.随着数据量的急剧增加,针对大数据集的聚类分析成为一个难点.虽然k均值算法具有易实现、复杂度与数据集大小成线性关系的优点,将其应用于大数据集时仍然存在效率低的问题.分布式聚类是解决这一问题的有效方法.在已有分布式聚类算法kDMeans基础上,结合向量内积不等式关系对算法加以优化,提出分布式聚类算法kDCBIP.理论分析和实验结果表明,算法kDCBIP优于kDMeans,可以有效地解决大数据集聚类问题,算法是有效可行的.
引用
收藏
页码:1493 / 1497
页数:5
相关论文
共 10 条
[1]  
P-Autoclass:Scalable parallel clustering for mining large data sets. C.Pizzuti,D.Talia. IEEE Transactions on Knowledge and Data Engineering . 2003
[2]  
CURE:Anefficientclustering algorithmforlargedatabases. S.Guha,R.Rostogi,K.Shim. Proc.theACMSIGMODInt’’lConf.ManagementofDataSeat tle . 1998
[3]  
Clustering validity assessment:Finding theoptimal partitioning of a data set. Maria Halkidi,Michalis Vazirgiannis. IEEE Int’l Conf.Data Mining . 2001
[4]  
Parallelk meansclusteringalgo rithmonNows. S.Kantabutra,A.L.Couch. NECTECTechnicalJournal . 1999
[5]  
Ferhatosmanoglu, U.Ogras. Dimensionality reduction and similarity computation by inner-product approximates. Egecioglu, H. IEEE Transactions on Knowledge and Data Engineering . 2004
[6]  
Muntz.STING:Astatisticalinformationgrid approachtospatialdatamining. W.Zhan,etal. Proc.23rdVLDBConf . 1997
[7]  
Parallel K-means Algorithm on Distributed Memory Multiprocessors. Joshi M N. http://www.cs.umn.edu/~mnjoshi/PKMeans.pdf . 2003
[8]  
Data Mining: Concepts and Techniques. Han Jia-wei, Kamber M. Morgan Kaufmann Publishers . 2000
[9]  
BIRCH:Anef ficientdataclusteringmethodforverylargedatabases. TianZhang,RaghuRamakrishnan,MironLivny. Proc.ACMSIGMODInt’’lConf.ManagementofData . 1996
[10]  
Adensitybasedalgo rithmofdiscoveringclustersinlargespatialdatabaseswithnoise. M.Ester,HP.Kriegel,J.Sander,etal. Proc.the2ndInt’’lConf KnowledgeDiscoveryandDataMiningPortland . 1996