基于文本加权KNN算法的中文垃圾短信过滤

被引:18
作者
黄文明 [1 ]
莫阳 [2 ]
机构
[1] 桂林电子科技大学广西可信软件重点实验室
[2] 桂林电子科技大学计算机与信息安全学院
关键词
垃圾过滤; 关联规则; 特征选择; K最近邻算法; 向量空间模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的影响,引入第1个加权公式,同时针对垃圾短信数据集,采用关联规则算法挖掘出在垃圾短信中频繁出现的共现词组,并以此引入第2个加权公式,最后将引入的2种文本权重计算公式对每个短信文本进行复合加权处理,以区分各个训练样本对于判定隶属类别的影响程度,从而在分类决策规则上作出改进。实验结果表明,与未经过文本加权的KNN算法相比,该算法对垃圾短信和正常短信在分类准确率、召回率、F1值等指标上都有较大的提升。
引用
收藏
页码:193 / 199
页数:7
相关论文
共 11 条
[11]  
LIBSVM[J] . Chih-Chung Chang,Chih-Jen Lin.ACM Transactions on Intelligent Systems and Technology (TIST) . 2011 (3)