一种改进的KNN文本分类算法

被引:25
作者
樊存佳
汪友生
边航
机构
[1] 北京工业大学电子信息与控制工程学院
关键词
文本分类; KNN; 裁剪训练样本; 代表度函数;
D O I
10.19652/j.cnki.femt.2015.12.010
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
当今大数据时代,文本数据占相当大的比重,作为有效管理和组织文本数据的方法,分类逐渐成为关注的热点。KNN是一种经典的分类算法,针对其分类速度和分类精度无法同时兼顾的不足,采用改进的K-Medoids聚类算法裁剪对KNN分类贡献小的训练样本,从而减少KNN相似度的计算量,并定义代表度函数有差别地处理测试文本的K个最近邻文本,以提高KNN的分类精度。实验结果表明,改进后的方法在分类速度上和分类精度上均有明显地提高。
引用
收藏
页码:39 / 43
页数:5
相关论文
共 19 条
[1]   基于K-Medoids聚类的改进KNN文本分类算法 [J].
罗贤锋 ;
祝胜林 ;
陈泽健 ;
袁玉强 .
计算机工程与设计, 2014, 35 (11) :3864-3867+3937
[2]   基于K最近邻分类的无线传感器网络定位算法 [J].
石欣 ;
印爱民 ;
张琦 .
仪器仪表学报, 2014, 35 (10) :2238-2247
[3]   高光谱影像的多核SVM分类 [J].
谭熊 ;
余旭初 ;
秦进春 ;
魏祥坡 .
仪器仪表学报, 2014, 35 (02) :405-411
[4]   基于DBSCAN聚类的改进KNN文本分类算法 [J].
苟和平 ;
景永霞 ;
冯百明 ;
李勇 .
科学技术与工程, 2013, 13 (01) :219-222
[5]   蚁群K-medoids融合的聚类算法 [J].
赵烨 ;
黄泽君 .
电子测量与仪器学报, 2012, 26 (09) :800-804
[6]   文本分类中基于K-means的类偏斜KNN样本剪裁 [J].
刘海峰 ;
姚泽清 ;
苏展 ;
张学仁 .
微电子学与计算机, 2012, 29 (05) :24-28
[7]   特征联合熵的一种改进K近邻分类算法 [J].
周靖 ;
刘晋胜 .
计算机应用, 2011, 31 (07) :1785-1788+1792
[8]   一种高效的K-medoids聚类算法 [J].
夏宁霞 ;
苏一丹 ;
覃希 .
计算机应用研究, 2010, 27 (12) :4517-4519
[9]   基于聚类算法的KNN文本分类算法研究 [J].
江涛 ;
陈小莉 ;
张玉芳 ;
熊忠阳 .
计算机工程与应用 , 2009, (07) :153-155+158
[10]   一种改进的KNN Web文本分类方法 [J].
吴春颖 ;
王士同 .
计算机应用研究, 2008, (11) :3275-3277