基于向量投影的KNN文本分类算法

被引:10
作者
卜凡军
钱雪忠
机构
[1] 江南大学信息工程学院
关键词
K-近邻; 文本分类; 投影; 效率; 高维;
D O I
10.16208/j.issn1000-7024.2009.21.026
中图分类号
TP301.6 [算法理论];
学科分类号
摘要
针对KNN算法分类时间过长的缺点,分析了提高分类效率的方法。在KNN算法基础上,结合向量投影理论以及iDistance索引结构,提出了一种改进的KNN算法——PKNN。该算法通过比较待分类样本和训练样本的一维投影距离,获得最有可能的临近样本点,减小了参与计算的训练样本数,因此可以减少每次分类的计算量。实验结果表明,PKNN算法可以明显提高KNN算法的效率,PKNN算法的原理决定其适合大容量高维文本分类。
引用
收藏
页码:4939 / 4941
页数:3
相关论文
共 6 条