一种基于类平均相似度的文本分类算法

被引:4
作者
谭学清
周通
罗琳
机构
[1] 不详
[2] 武汉大学信息管理学院
[3] 不详
关键词
类平均相似度; 向量空间模型; KNN; 文本分类; 特征选择;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
【目的】在KNN算法基础上,提高文本分类的分类性能和分类速度。【方法】提出一种基于类平均相似度的分类算法,通过计算待分类文本与训练集各类别中所有文本相似度的平均值判断待分类文本的所属类别。【结果】实验表明,本文方法在复旦、Sogou平衡、非平衡语料上的MacroF1比KNN分类算法分别提高3.5%、3.2%和3.3%,分类时间分别为KNN算法的1/22、1/6和1/5。【局限】考虑到KNN算法的时间效率,实验数据的文本数较少。【结论】相对于KNN,基于类平均相似度是一种适用于大规模文本分类的实用分类算法。
引用
收藏
页码:66 / 73
页数:8
相关论文
共 11 条
[1]   一种基于信息增益的特征选择方法 [J].
黄志艳 .
山东农业大学学报(自然科学版), 2013, 44 (02) :252-256
[2]   中文文本分类中特征选择方法的改进与比较 [J].
田野 ;
南征 ;
郑伟 ;
王星 .
河北北方学院学报(自然科学版), 2012, 28 (06) :33-35
[3]   基于互信息的无监督特征选择 [J].
徐峻岭 ;
周毓明 ;
陈林 ;
徐宝文 .
计算机研究与发展, 2012, 49 (02) :372-382
[4]   基于信息增益的LDA模型的短文本分类 [J].
沈竞 .
重庆文理学院学报(自然科学版), 2011, 30 (06) :64-66
[5]   文本分类性能评价研究 [J].
奉国和 .
情报杂志, 2011, 30 (08) :66-70
[6]   文本分类中改进型CHI特征选择方法的研究 [J].
裴英博 ;
刘晓霞 .
计算机工程与应用, 2011, (04) :128-130+194
[7]   一种新的中文文本分类算法 [J].
郑凤萍 .
现代情报 , 2007, (03) :143-144
[8]   一种实用高效的文本分类算法 [J].
王建会 ;
王洪伟 ;
申展 ;
胡运发 .
计算机研究与发展, 2005, (01) :85-93
[9]   基于FIFA算法的文本分类 [J].
朱靖波 ;
姚天顺 .
中文信息学报, 2002, (03) :20-26
[10]   Classification improvement of local feature vectors over the KNN algorithm [J].
Mejdoub, Mahmoud ;
Ben Amar, Chokri .
MULTIMEDIA TOOLS AND APPLICATIONS, 2013, 64 (01) :197-218