基于TF-IDF和余弦相似度的文本分类方法

被引:101
作者
武永亮 [1 ,2 ]
赵书良 [1 ,2 ]
李长镜 [1 ,2 ]
魏娜娣 [3 ]
王子晏 [4 ]
机构
[1] 河北师范大学数学与信息科学学院
[2] 河北省计算数学与应用重点实验室
[3] 河北师范大学汇华学院
[4] 中国科学技术大学计算机科学与技术学院
关键词
文本分类; 大数据; TF-IDF; 余弦相似度; 类别关键词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤:基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。
引用
收藏
页码:138 / 145
页数:8
相关论文
共 6 条
[1]  
An improved K -nearest-neighbor algorithm for text categorization[J] . Shengyi Jiang,Guansong Pang,Meiling Wu,Limin Kuang.Expert Systems With Applications . 2011 (1)
[2]   Using kNN model for automatic text categorization [J].
Guo, GD ;
Wang, H ;
Bell, D ;
Bi, YX ;
Greer, K .
SOFT COMPUTING, 2006, 10 (05) :423-430
[3]   Probabilistic models of information retrieval based on measuring the divergence from randomness [J].
Amati, G ;
Van Rijsbergen, CJ .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2002, 20 (04) :357-389
[4]   SUPPORT-VECTOR NETWORKS [J].
CORTES, C ;
VAPNIK, V .
MACHINE LEARNING, 1995, 20 (03) :273-297
[5]  
Precision Weighting—An Effective Automatic Indexing Method[J] . C. T. Yu,G. Salton.Journal of the ACM (JACM) . 1976 (1)
[6]  
A training algorithm for optimal margin classifiers .2 Boser B,Guyon I,Vapnik V. Fifth Annual Workshop on Computational Learning Theory . 1992