共 4 条
文本分类中基于K-means的类偏斜KNN样本剪裁
被引:6
作者:
刘海峰
姚泽清
苏展
张学仁
机构:
[1] 解放军理工大学理学院
来源:
关键词:
K最近邻;
类偏斜;
样本剪裁;
聚类;
D O I:
10.19304/j.cnki.issn1000-7180.2012.05.006
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
KNN算法是经典的文本分类算法.训练样本的数量和类别密度是影响算法性能的主要瓶颈,合理的样本剪裁可以提高分类器效率.文中提出了一种基于聚类的改进KNN分类模型.首先对训练集进行聚类,基于测试样本与簇之间的相对位置对训练集进行合理裁剪以节约计算开销;然后基于簇内样本分布进行样本赋权,改善大类别样本的密度占优现象.实验结果表明,本文提出的样本剪裁方法提高了KNN算法的分类性能.
引用
收藏
页码:24 / 28
页数:5
相关论文