基于搜索改进的KNN文本分类算法

被引:14
作者
殷亚博 [1 ]
杨文忠 [1 ,2 ]
杨慧婷 [1 ]
许超英 [2 ]
机构
[1] 新疆大学信息科学与工程学院
[2] 新疆大学软件学院
关键词
K最近邻; 文本分类; 相似度; 多峰分布; 聚类;
D O I
10.16208/j.issn1000-7024.2018.09.039
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为解决基于TF-IDF的KNN算法在文本分类时没有考虑文本特征值的多峰分布和文本相似度的计算量导致分类性能差的问题,提出一种基于搜索改进的KNN文本分类算法SIKNN(KNN text classification algorithm based on search improvement)。计算待测样本与聚类后每个类别中样本的平均相似度;当很容易就确定待测样本所属类别时,就停止该待测样本与其它类别中样本相似度的比较,缩小文本相似度计算的搜索空间,提高文本分类的速度。该算法在数据集20-Newsgroups上分别与传统的KNN算法和改进的KNN算法做对比实验,实验结果表明,该算法能够明显提高KNN算法的分类性能和分类速度。
引用
收藏
页码:2923 / 2928
页数:6
相关论文
共 11 条
[1]  
基于决策树的档案文本自动分类算法研究.[D].黄世反.云南大学.2015, 09
[2]  
基于KNN的文本分类特征选择与分类算法的研究与改进.[D].黄娟娟.厦门大学.2014, 08
[3]   基于聚类改进的KNN文本分类算法 [J].
周庆平 ;
谭长庚 ;
王宏君 ;
湛淼湘 .
计算机应用研究, 2016, 33 (11) :3374-3377+3382
[4]   一种改进的KNN文本分类算法 [J].
樊存佳 ;
汪友生 ;
边航 .
国外电子测量技术, 2015, 34 (12) :39-43
[5]   基于K-Medoids聚类的改进KNN文本分类算法 [J].
罗贤锋 ;
祝胜林 ;
陈泽健 ;
袁玉强 .
计算机工程与设计, 2014, 35 (11) :3864-3867+3937
[6]   一种新型朴素贝叶斯文本分类算法 [J].
邸鹏 ;
段利国 .
数据采集与处理, 2014, 29 (01) :71-75
[7]   改进型加权KNN算法的不平衡数据集分类 [J].
王超学 ;
潘正茂 ;
马春森 ;
董丽丽 ;
张涛 .
计算机工程, 2012, 38 (20) :160-163+168
[8]  
A study of neural-network-based classifiers for material classification.[J].H.K. Lam;Udeme Ekong;Hongbin Liu;Bo Xiao;Hugo Araujo;Sai Ho Ling;Kit Yan Chan.Neurocomputing.2014,
[9]  
Class imbalance and the curse of minority hubs.[J].Nenad Tomašev;Dunja Mladenić.Knowledge-Based Systems.2013,
[10]  
An improved K -nearest-neighbor algorithm for text categorization.[J].Shengyi Jiang;Guansong Pang;Meiling Wu;Limin Kuang.Expert Systems With Applications.2011, 1