基于聚类算法的KNN文本分类算法研究

被引:29
作者
江涛
陈小莉
张玉芳
熊忠阳
机构
关键词
K近邻; 隶属度; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
KNN算法是一种在人工智能领域如专家系统、数据挖掘、模式识别等方面广泛应用的算法。该算法简单有效,易于实现。但是KNN算法在决定测试样本的类别时,是把所求的该测试样本的K个最近邻是等同看待的,即不考虑这K个最近邻能表达所属类别的程度。由于训练样本的分布是不均匀的,每个样本对分类的贡献也就不一样,因此有必要有区别的对待训练样本集合中的每个样本。利用聚类算法,求出训练样本集合中每个训练样本的隶属度,利用隶属度来区别对待测试样本的K个最近邻。通过实验证明,改进后的KNN算法较好的精确性。
引用
收藏
页码:153 / 155+158 +158
页数:4
相关论文
共 3 条
[1]   一种基于信息增益的K-NN改进算法 [J].
豆增发 ;
王英强 ;
王保保 .
电子科技, 2006, (12) :52-56
[2]   基于最大最小距离法的多中心聚类算法 [J].
周涓 ;
熊忠阳 ;
张玉芳 ;
任芳 .
计算机应用, 2006, (06) :1425-1427
[3]   基于密度的kNN文本分类器训练样本裁剪方法 [J].
李荣陆 ;
胡运发 .
计算机研究与发展, 2004, (04) :539-545