结合语义和文本特征位串的高效KNN算法

被引:1
作者
林啟锋
蒙祖强
陈秋莲
陈智敏
机构
[1] 广西大学计算机与电子信息学院
关键词
概念聚合; 语义关联; 文本特征位串; k最近邻算法; 文本分类;
D O I
10.16208/j.issn1000-7024.2013.07.030
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法。该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串进行的位计算方法,能从大量的训练文本集中筛选出可能的相似文本,较好地克服了KNN算法计算量大的问题。算法的分析与实验表明,改进的算法明显提高了KNN的计算效率,同时也提高了分类的准确率和召回率。
引用
收藏
页码:2417 / 2421+2469 +2469
页数:6
相关论文
共 6 条
[1]
基于区域划分的kNN文本快速分类算法研究 [J].
胡元 ;
石冰 .
计算机科学, 2012, 39 (10) :182-186
[2]
基于语义关联和信息增益的TFIDF改进算法研究 [J].
许珂 ;
蒙祖强 ;
林啓峰 .
计算机应用研究, 2012, 29 (02) :557-560
[3]
通过相似度支持度优化基于K近邻的协同过滤算法 [J].
罗辛 ;
欧阳元新 ;
熊璋 ;
袁满 .
计算机学报, 2010, 33 (08) :1437-1445
[4]
基于支持向量机的兼类文本分类算法研究 [J].
秦玉平 ;
艾青 ;
王秀坤 ;
李祥纳 ;
刘卫江 .
计算机工程与设计, 2008, (02) :408-410
[5]
基于贝叶斯的文本分类方法 [J].
罗海飞 ;
吴刚 ;
杨金生 .
计算机工程与设计, 2006, (24) :4746-4748
[6]
Edited AdaBoost by weighted kNN.[J].Yunlong Gao;Feng Gao.Neurocomputing.2010, 16