基于聚类改进的KNN文本分类算法

被引:66
作者
周庆平
谭长庚
王宏君
湛淼湘
机构
[1] 中南大学软件学院
关键词
文本分类; KNN; 聚类化; 训练集;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法。但是KNN算法在处理文本分类的过程中需要不断地计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文本分类中的效率,提出一种基于聚类的改进KNN算法。算法开始之前采用改进χ2统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KNN方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好地进行文本分类。
引用
收藏
页码:3374 / 3377+3382 +3382
页数:5
相关论文
共 5 条
  • [1] 集合CHI与IG的特征选择方法[J].王光,邱云飞,史庆伟. 计算机应用研究.2012(07)
  • [2] 基于Boosting算法的文本自动分类器设计[J].董乐红,耿国华,周明全. 计算机应用.2007(02)
  • [3] 基于最大最小距离法的多中心聚类算法[J].周涓,熊忠阳,张玉芳,任芳. 计算机应用.2006(06)
  • [4] 基于X~2统计的中文文本分类特征选择方法研究[D].张鹏招.重庆大学.2008
  • [5] Astudyofneural-network-basedclassifiersformaterialclassification[J].H.K.Lam,UdemeEkong,HongbinLiu,BoXiao,HugoAraujo,SaiHoLing,KitYanChan. Neurocomputing.2014