朴素贝叶斯算法的改进与应用

被引:24
作者
赵文涛 [1 ,2 ]
孟令军 [1 ]
赵好好 [1 ]
王春春 [1 ]
机构
[1] 河南理工大学计算机科学与技术学院
[2] 河南省普通高等学校矿山信息化研究重点实验室
关键词
朴素贝叶斯; 下溢; 核心关键词; TFIDF; 文本分类;
D O I
10.19708/j.ckjs.2016.02.036
中图分类号
TP18 [人工智能理论]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
朴素贝叶斯算法是分类算法中最经典、最有影响的算法之一,但仍然存在一些不足之处。针对该算法中下溢问题,对算法基本公式进行了优化改进。针对NB算法中准确率问题,结合类别核心词思想和改进后的TFIDF算法,提出了一种基于类别核心词和改进型TFIDF的朴素贝叶斯CIT-NB算法。将改进后的算法应用于新闻数据集文本分类,实验结果表明,CIT-NB算法的分类性能明显优于原始朴素贝叶斯算法和基于TFIDF的分类算法。
引用
收藏
页码:143 / 147
页数:5
相关论文
共 9 条
[1]   一种新型朴素贝叶斯文本分类算法 [J].
邸鹏 ;
段利国 .
数据采集与处理, 2014, 29 (01) :71-75
[2]   基于Hadoop的贝叶斯过滤MapReduce模型 [J].
曾青华 ;
袁家斌 ;
张云洲 .
计算机工程, 2013, 39 (11) :57-60+64
[3]   基于Hadoop的分布式朴素贝叶斯文本分类 [J].
卫洁 ;
石洪波 ;
冀素琴 .
计算机系统应用, 2012, 21 (02) :210-213
[4]   基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究 [J].
郑炜 ;
沈文 ;
张英鹏 .
西北工业大学学报, 2010, 28 (04) :622-627
[5]   四种贝叶斯分类器及其比较 [J].
邓甦 ;
付长贺 .
沈阳师范大学学报(自然科学版), 2008, (01) :31-33
[6]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[7]   基于类别核心词的朴素贝叶斯中文文本分类 [J].
袁方 ;
苑俊英 .
山东大学学报(理学版), 2006, (03) :46-49
[8]  
数据挖掘导论[M]. 人民邮电出版社 , (美)Pang-NingTan, 2006
[9]  
Toolkit-basedhigh-performance data mining of large data on MapReduce clusters .2 WEGENER D,MOCK M,ADRANALE D,et al. ICDM:IEEE International Conference on Data Mining . 2009