基于文本加权KNN算法的中文垃圾短信过滤

被引:18
作者
黄文明 [1 ]
莫阳 [2 ]
机构
[1] 桂林电子科技大学广西可信软件重点实验室
[2] 桂林电子科技大学计算机与信息安全学院
关键词
垃圾过滤; 关联规则; 特征选择; K最近邻算法; 向量空间模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的影响,引入第1个加权公式,同时针对垃圾短信数据集,采用关联规则算法挖掘出在垃圾短信中频繁出现的共现词组,并以此引入第2个加权公式,最后将引入的2种文本权重计算公式对每个短信文本进行复合加权处理,以区分各个训练样本对于判定隶属类别的影响程度,从而在分类决策规则上作出改进。实验结果表明,与未经过文本加权的KNN算法相比,该算法对垃圾短信和正常短信在分类准确率、召回率、F1值等指标上都有较大的提升。
引用
收藏
页码:193 / 199
页数:7
相关论文
共 11 条
[1]   基于关联分类的中文短信分类 [J].
蔡永泉 ;
晋月培 ;
葛安生 ;
赵凯 .
北京工业大学学报, 2015, 41 (07) :1020-1027
[2]   一种自适应的大间隔近邻分类算法 [J].
杨柳 ;
于剑 ;
景丽萍 .
计算机研究与发展 , 2013, (11) :2269-2277
[3]   基于特征词的垃圾短信分类器模型 [J].
张永军 ;
刘金岭 .
计算机应用, 2013, 33 (05) :1334-1337
[4]  
Deep Feature Weighting for Naive Bayes and Its Application to Text Classification[J] . Liangxiao Jiang,Chaoqun Li,Shasha Wang,Lungan Zhang.Engineering Applications of Artificial Intelligen . 2016
[5]  
Feature selection via maximizing global information gain for text classification[J] . Changxing Shang,Min Li,Shengzhong Feng,Qingshan Jiang,Jianping Fan.Knowledge-Based Systems . 2013
[6]  
Mobile SMS Spam Filtering for Nepali Text Using Na?ve Bayesian and Support Vector Machine[J] . Tej Bahadur Shahi,Abhimanu Yadav.International Journal of Intelligence Science . 2013 (01)
[7]  
Research on the Application of an Improved TFIDF Algorithm in Text Classification[J] . Hu,Jian-jun,Yao,Yu-xian.Journal of Convergence Information Technology . 2013 (7)
[8]  
Multiclass Boosting with Adaptive Group-Based k NN and Its Application in Text Categorization[J] . Lei La,Qiao Guo,Dequan Yang,Qimin Cao,Serge Prudhomme.Mathematical Problems in Engineering . 2012
[9]   Automated text classification using a dynamic artificial neural network model [J].
Ghiassi, M. ;
Olschimke, M. ;
Moon, B. ;
Arnaudo, P. .
EXPERT SYSTEMS WITH APPLICATIONS, 2012, 39 (12) :10967-10976
[10]  
Enhanced Topic-based Vector Space Model for semantics-aware spam filtering[J] . Igor Santos,Carlos Laorden,Borja Sanz,Pablo G. Bringas.Expert Systems With Applications . 2011 (1)