基于密度的kNN分类器训练样本裁剪方法的改进

被引:13
作者
熊忠阳
杨营辉
张玉芳
机构
[1] 重庆大学计算机学院
基金
中国博士后科学基金;
关键词
文本分类; k-近邻; 快速分类; 样本裁剪; 样本补充;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
在文本分类中,训练集的分布状态会直接影响k-近邻(kNN)分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法,发现它存在两大不足:一是裁剪之后的均匀状态只是以ε为半径的球形区域意义上的均匀状态,而非最理想的均匀状态即两两样本之间的距离相等;二是未对低密度区域的样本做任何处理,裁剪之后仍存在大量不均匀的区域。针对这两处不足,提出了以下两点改进:一是优化了裁剪策略,使裁剪之后的训练集更趋于理想的均匀状态;二是实现了对低密度区域样本的补充。通过实验对比,改进后的方法在稳定性和准确率方面都有明显提高。
引用
收藏
页码:799 / 801+817 +817
页数:4
相关论文
共 4 条
[1]   使用KNN算法的文本分类 [J].
张宁 ;
贾自艳 ;
史忠植 .
计算机工程, 2005, (08) :171-172+185
[2]   基于kNN的快速WEB文档分类 [J].
李杨 ;
曾海泉 ;
刘庆华 ;
胡运发 .
小型微型计算机系统, 2004, (04) :725-729
[3]   基于密度的kNN文本分类器训练样本裁剪方法 [J].
李荣陆 ;
胡运发 .
计算机研究与发展, 2004, (04) :539-545
[4]  
用于Web文本分类的快速KNN算法[J]. 王煜,白石,王正欧.情报学报. 2007 (01)