基于K-Medoids聚类的改进KNN文本分类算法

被引:23
作者
罗贤锋
祝胜林
陈泽健
袁玉强
机构
[1] 华南农业大学信息学院
基金
广东省科技计划;
关键词
文本分类; 隶属度; K最近邻; 样本裁剪; K-Medoids聚类;
D O I
10.16208/j.issn1000-7024.2014.11.024
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为有效提高传统KNN算法(K最近邻算法)在海量数据的分类效率,分析传统KNN算法的分类过程,提出基于K-Medoids聚类的改进KNN算法。利用K-Medoids算法对文本训练集进行聚类,把文本训练集分成相似度较高的簇;根据待分类文本与簇的相对位置,对文本训练集进行裁剪,解决传统KNN算法在文本训练集过大时速度慢的问题。分析与实验结果表明,该裁剪方法能够合理有效地裁剪文本训练集,提高了KNN算法的运行效率和分类能力。
引用
收藏
页码:3864 / 3867+3937 +3937
页数:5
相关论文
共 13 条
[1]   基于MapReduce的K-Medoids并行算法 [J].
张雪萍 ;
龚康莉 ;
赵广才 .
计算机应用, 2013, 33 (04) :1023-1025+1035
[2]   基于DBSCAN聚类的改进KNN文本分类算法 [J].
苟和平 ;
景永霞 ;
冯百明 ;
李勇 .
科学技术与工程, 2013, 13 (01) :219-222
[3]   KNN分类算法改进研究进展 [J].
奉国和 ;
吴敬学 .
图书情报工作 , 2012, (21) :97-100+118
[4]   文本分类中基于K-means的类偏斜KNN样本剪裁 [J].
刘海峰 ;
姚泽清 ;
苏展 ;
张学仁 .
微电子学与计算机, 2012, 29 (05) :24-28
[5]   基于改进蚁群算法的高精度文本特征选择方法 [J].
李凯齐 ;
刁兴春 ;
曹建军 ;
李峰 .
解放军理工大学学报(自然科学版), 2010, 11 (06) :634-639
[6]   一种采用聚类技术改进的KNN文本分类方法 [J].
张孝飞 ;
黄河燕 .
模式识别与人工智能, 2009, 22 (06) :936-940
[7]   K-means聚类算法的研究 [J].
韩晓红 ;
胡彧 .
太原理工大学学报, 2009, (03) :236-239
[8]   一种改进的KNN Web文本分类方法 [J].
吴春颖 ;
王士同 .
计算机应用研究, 2008, (11) :3275-3277
[9]   基于向量空间模型的文本聚类算法 [J].
姚清耘 ;
刘功申 ;
李翔 .
计算机工程, 2008, (18) :39-41+44
[10]   二值文本分类中基于Bayes推理的特征选择方法 [J].
闫鹏 ;
郑雪峰 ;
李明祥 ;
陈松华 .
计算机科学, 2008, (07) :173-176