共 11 条
一种基于类平均相似度的文本分类算法
被引:4
作者:
谭学清
周通
罗琳
机构:
[1] 不详
[2] 武汉大学信息管理学院
[3] 不详
来源:
关键词:
类平均相似度;
向量空间模型;
KNN;
文本分类;
特征选择;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
【目的】在KNN算法基础上,提高文本分类的分类性能和分类速度。【方法】提出一种基于类平均相似度的分类算法,通过计算待分类文本与训练集各类别中所有文本相似度的平均值判断待分类文本的所属类别。【结果】实验表明,本文方法在复旦、Sogou平衡、非平衡语料上的MacroF1比KNN分类算法分别提高3.5%、3.2%和3.3%,分类时间分别为KNN算法的1/22、1/6和1/5。【局限】考虑到KNN算法的时间效率,实验数据的文本数较少。【结论】相对于KNN,基于类平均相似度是一种适用于大规模文本分类的实用分类算法。
引用
收藏
页码:66 / 73
页数:8
相关论文