文本分类中基于K-means的类偏斜KNN样本剪裁

被引:6
作者
刘海峰
姚泽清
苏展
张学仁
机构
[1] 解放军理工大学理学院
关键词
K最近邻; 类偏斜; 样本剪裁; 聚类;
D O I
10.19304/j.cnki.issn1000-7180.2012.05.006
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
KNN算法是经典的文本分类算法.训练样本的数量和类别密度是影响算法性能的主要瓶颈,合理的样本剪裁可以提高分类器效率.文中提出了一种基于聚类的改进KNN分类模型.首先对训练集进行聚类,基于测试样本与簇之间的相对位置对训练集进行合理裁剪以节约计算开销;然后基于簇内样本分布进行样本赋权,改善大类别样本的密度占优现象.实验结果表明,本文提出的样本剪裁方法提高了KNN算法的分类性能.
引用
收藏
页码:24 / 28
页数:5
相关论文
共 4 条
[1]   基于粗糙集的快速KNN文本分类算法 [J].
孙荣宗 ;
苗夺谦 ;
卫志华 ;
李文 .
计算机工程, 2010, 36 (24) :175-177
[2]   中文文本分类系统的设计与实现 [J].
王俊英 ;
郭景峰 ;
霍峥 .
微电子学与计算机, 2006, (S1) :262-265
[3]   基于支持向量机的Web文本分类方法 [J].
牛强 ;
王志晓 ;
陈岱 ;
夏士雄 .
微电子学与计算机, 2006, (09) :102-104
[4]   基于密度的kNN文本分类器训练样本裁剪方法 [J].
李荣陆 ;
胡运发 .
计算机研究与发展, 2004, (04) :539-545