K-Means聚类的多种距离计算方法的文本实验比较

被引:6
作者
林滨
机构
[1] 福州软件职业技术学院计算机系
关键词
文本聚类; TF-IDF; K-Means; 距离计算;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对文本类型数据的分类进行研究,用VSM模型和TF-IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。
引用
收藏
页码:80 / 85
页数:6
相关论文
共 8 条
[1]   最大距离法选取初始簇中心的K-means文本聚类算法的研究 [J].
翟东海 ;
鱼江 ;
高飞 ;
于磊 ;
丁锋 .
计算机应用研究, 2014, 31 (03) :713-715+719
[2]   基于向量语义相似度的改进K-Means算法 [J].
李法运 ;
农罗锋 .
情报科学 , 2013, (02) :34-37+44
[3]   K-means算法研究综述 [J].
吴夙慧 ;
成颖 ;
郑彦宁 ;
潘云涛 .
现代图书情报技术, 2011, (05) :28-35
[4]   图像-文本相关性挖掘的Web图像聚类方法 [J].
吴飞 ;
韩亚洪 ;
庄越挺 ;
邵健 .
软件学报, 2010, 21 (07) :1561-1575
[5]   聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[6]   基于潜在语义分析的汉语问答系统答案提取 [J].
余正涛 ;
樊孝忠 ;
郭剑毅 ;
耿增民 .
计算机学报, 2006, (10) :1889-1893
[7]  
DIMK-means “Distance-based Initialization Method for K-means Clustering Algorithm”[J] . Raed T. Aldahdooh,Wesam Ashour.International Journal of Intelligent Systems and Applications(IJISA) . 2013 (2)
[8]  
Data clustering: 50 years beyond K-means[J] . Anil K. Jain.Pattern Recognition Letters . 2009 (8)