共 13 条
基于K-Medoids聚类的改进KNN文本分类算法
被引:23
作者:
罗贤锋
祝胜林
陈泽健
袁玉强
机构:
[1] 华南农业大学信息学院
来源:
基金:
广东省科技计划;
关键词:
文本分类;
隶属度;
K最近邻;
样本裁剪;
K-Medoids聚类;
D O I:
10.16208/j.issn1000-7024.2014.11.024
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
为有效提高传统KNN算法(K最近邻算法)在海量数据的分类效率,分析传统KNN算法的分类过程,提出基于K-Medoids聚类的改进KNN算法。利用K-Medoids算法对文本训练集进行聚类,把文本训练集分成相似度较高的簇;根据待分类文本与簇的相对位置,对文本训练集进行裁剪,解决传统KNN算法在文本训练集过大时速度慢的问题。分析与实验结果表明,该裁剪方法能够合理有效地裁剪文本训练集,提高了KNN算法的运行效率和分类能力。
引用
收藏
页码:3864 / 3867+3937
+3937
页数:5
相关论文