基于短语的贝叶斯中文垃圾邮件过滤方法

被引:17
作者
王青松
魏如玉
机构
[1] 辽宁大学信息学院
关键词
垃圾邮件过滤; 贝叶斯; 特征项提取; 基于短语; 中文分词;
D O I
暂无
中图分类号
TP393.098 [];
学科分类号
摘要
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。
引用
收藏
页码:256 / 259+269 +269
页数:5
相关论文
共 13 条
[1]
垃圾邮件过滤中信息增益的改进研究 [J].
翟军昌 ;
秦玉平 ;
车伟伟 .
计算机科学, 2014, 41 (06) :214-216+224
[2]
中文垃圾邮件过滤综合方法 [J].
李玉峰 ;
郜晓晶 .
计算机应用与软件, 2011, 28 (08) :219-221+226
[3]
垃圾邮件过滤的贝叶斯方法综述 [J].
张铭锋 ;
李云春 ;
李巍 .
计算机应用研究, 2005, (08) :14-19
[4]
中文停用词表的自动选取 [J].
顾益军 ;
樊孝忠 ;
王建华 ;
汪涛 ;
黄维金 .
北京理工大学学报, 2005, (04) :337-340
[5]
垃圾邮件的综合过滤方法 [J].
徐激 ;
龚俭 .
计算机科学, 2005, (02) :69-72+86
[6]
汉语基本短语的自动识别 [J].
张昱琪 ;
周强 .
中文信息学报, 2002, (06) :1-8
[7]
中文文本分类器的设计 [J].
陆建江 ;
张文献 .
计算机工程与应用, 2002, (15) :49-51
[8]
结合句法组成模板识别汉语基本名词短语的概率模型 [J].
赵军 ;
黄昌宁 ;
不详 .
计算机研究与发展 , 1999, (11) :1384-1390
[9]
汉语基本名词短语结构分析模型 [J].
赵军 ;
黄昌宁 .
计算机学报, 1999, (02)
[10]
面向语料库标注的汉语依存体系的探讨 [J].
周明 ;
黄昌宁 .
中文信息学报, 1994, (03)