学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于短语的贝叶斯中文垃圾邮件过滤方法
被引:17
作者
:
论文数:
引用数:
h-index:
机构:
王青松
论文数:
引用数:
h-index:
机构:
魏如玉
机构
:
[1]
辽宁大学信息学院
来源
:
计算机科学
|
2016年
/ 43卷
/ 04期
关键词
:
垃圾邮件过滤;
贝叶斯;
特征项提取;
基于短语;
中文分词;
D O I
:
暂无
中图分类号
:
TP393.098 [];
学科分类号
:
摘要
:
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。
引用
收藏
页码:256 / 259+269 +269
页数:5
相关论文
共 13 条
[1]
垃圾邮件过滤中信息增益的改进研究
[J].
论文数:
引用数:
h-index:
机构:
翟军昌
;
论文数:
引用数:
h-index:
机构:
秦玉平
;
论文数:
引用数:
h-index:
机构:
车伟伟
.
计算机科学,
2014,
41
(06)
:214
-216+224
[2]
中文垃圾邮件过滤综合方法
[J].
李玉峰
论文数:
0
引用数:
0
h-index:
0
机构:
内蒙古农业大学计算机与信息工程学院
李玉峰
;
论文数:
引用数:
h-index:
机构:
郜晓晶
.
计算机应用与软件,
2011,
28
(08)
:219
-221+226
[3]
垃圾邮件过滤的贝叶斯方法综述
[J].
张铭锋
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学计算机学院,北京航空航天大学计算机学院,北京航空航天大学计算机学院北京,北京,北京
张铭锋
;
论文数:
引用数:
h-index:
机构:
李云春
;
论文数:
引用数:
h-index:
机构:
李巍
.
计算机应用研究,
2005,
(08)
:14
-19
[4]
中文停用词表的自动选取
[J].
顾益军
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
顾益军
;
论文数:
引用数:
h-index:
机构:
樊孝忠
;
王建华
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
王建华
;
论文数:
引用数:
h-index:
机构:
汪涛
;
黄维金
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
黄维金
.
北京理工大学学报,
2005,
(04)
:337
-340
[5]
垃圾邮件的综合过滤方法
[J].
徐激
论文数:
0
引用数:
0
h-index:
0
机构:
东南大学计算机系
徐激
;
论文数:
引用数:
h-index:
机构:
龚俭
.
计算机科学,
2005,
(02)
:69
-72+86
[6]
汉语基本短语的自动识别
[J].
张昱琪
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室,智能技术与系统国家重点实验室清华大学计算机系北京,清华大学计算机系北京
张昱琪
;
论文数:
引用数:
h-index:
机构:
周强
.
中文信息学报,
2002,
(06)
:1
-8
[7]
中文文本分类器的设计
[J].
陆建江
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学理学院南京,南京
陆建江
;
张文献
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学理学院南京,南京
张文献
.
计算机工程与应用,
2002,
(15)
:49
-51
[8]
结合句法组成模板识别汉语基本名词短语的概率模型
[J].
赵军
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系!北京
赵军
;
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系!北京
黄昌宁
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系!北京
不详
.
计算机研究与发展 ,
1999,
(11)
:1384
-1390
[9]
汉语基本名词短语结构分析模型
[J].
论文数:
引用数:
h-index:
机构:
赵军
;
论文数:
引用数:
h-index:
机构:
黄昌宁
.
计算机学报,
1999,
(02)
[10]
面向语料库标注的汉语依存体系的探讨
[J].
周明
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学系
周明
;
论文数:
引用数:
h-index:
机构:
黄昌宁
.
中文信息学报,
1994,
(03)
←
1
2
→
共 13 条
[1]
垃圾邮件过滤中信息增益的改进研究
[J].
论文数:
引用数:
h-index:
机构:
翟军昌
;
论文数:
引用数:
h-index:
机构:
秦玉平
;
论文数:
引用数:
h-index:
机构:
车伟伟
.
计算机科学,
2014,
41
(06)
:214
-216+224
[2]
中文垃圾邮件过滤综合方法
[J].
李玉峰
论文数:
0
引用数:
0
h-index:
0
机构:
内蒙古农业大学计算机与信息工程学院
李玉峰
;
论文数:
引用数:
h-index:
机构:
郜晓晶
.
计算机应用与软件,
2011,
28
(08)
:219
-221+226
[3]
垃圾邮件过滤的贝叶斯方法综述
[J].
张铭锋
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学计算机学院,北京航空航天大学计算机学院,北京航空航天大学计算机学院北京,北京,北京
张铭锋
;
论文数:
引用数:
h-index:
机构:
李云春
;
论文数:
引用数:
h-index:
机构:
李巍
.
计算机应用研究,
2005,
(08)
:14
-19
[4]
中文停用词表的自动选取
[J].
顾益军
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
顾益军
;
论文数:
引用数:
h-index:
机构:
樊孝忠
;
王建华
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
王建华
;
论文数:
引用数:
h-index:
机构:
汪涛
;
黄维金
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
黄维金
.
北京理工大学学报,
2005,
(04)
:337
-340
[5]
垃圾邮件的综合过滤方法
[J].
徐激
论文数:
0
引用数:
0
h-index:
0
机构:
东南大学计算机系
徐激
;
论文数:
引用数:
h-index:
机构:
龚俭
.
计算机科学,
2005,
(02)
:69
-72+86
[6]
汉语基本短语的自动识别
[J].
张昱琪
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室,智能技术与系统国家重点实验室清华大学计算机系北京,清华大学计算机系北京
张昱琪
;
论文数:
引用数:
h-index:
机构:
周强
.
中文信息学报,
2002,
(06)
:1
-8
[7]
中文文本分类器的设计
[J].
陆建江
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学理学院南京,南京
陆建江
;
张文献
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学理学院南京,南京
张文献
.
计算机工程与应用,
2002,
(15)
:49
-51
[8]
结合句法组成模板识别汉语基本名词短语的概率模型
[J].
赵军
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系!北京
赵军
;
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系!北京
黄昌宁
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系!北京
不详
.
计算机研究与发展 ,
1999,
(11)
:1384
-1390
[9]
汉语基本名词短语结构分析模型
[J].
论文数:
引用数:
h-index:
机构:
赵军
;
论文数:
引用数:
h-index:
机构:
黄昌宁
.
计算机学报,
1999,
(02)
[10]
面向语料库标注的汉语依存体系的探讨
[J].
周明
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学系
周明
;
论文数:
引用数:
h-index:
机构:
黄昌宁
.
中文信息学报,
1994,
(03)
←
1
2
→