一种新型朴素贝叶斯文本分类算法

被引:48
作者
邸鹏
段利国
机构
[1] 太原理工大学计算机科学与技术学院
关键词
文本分类; 朴素贝叶斯; 先验概率; 后验概率;
D O I
10.16337/j.1004-9037.2014.01.014
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对在文本分类中先验概率的计算比较费时而且对分类效果影响不大、后验概率的精度损失影响分类准确率的现象,对经典朴素贝叶斯分类算法进行了改进,提出了一种"先抑后扬"(抑制先验概率的作用,扩大后验概率的影响)的文本分类算法。算法中去掉了对先验概率的计算,并在后验概率的计算中引入了一个放大系数。实验结果表明,分类时不计算先验概率对分类精度影响甚微但可以明显加快分类的速度,在后验概率的计算中引入放大系数减少了误差传播的影响,提高了分类精度。
引用
收藏
页码:71 / 75
页数:5
相关论文
共 11 条
[1]   一种基于近邻元分析的文本分类算法 [J].
刘丛山 ;
李祥宝 ;
杨煜普 .
计算机工程, 2012, 38 (15) :139-141
[2]   基于小波预处理和贝叶斯分类器的P300识别算法 [J].
李晓欧 ;
乐建威 .
数据采集与处理, 2011, 26 (04) :420-424
[3]   基于归一化向量的文本分类算法 [J].
钟将 ;
孙启干 ;
李静 .
计算机工程, 2011, 37 (08) :47-49
[4]   基于类别相关性和优化的ID3特征选择 [J].
史岳鹏 ;
朱颢东 .
数据采集与处理, 2011, 26 (02) :230-234
[5]   一种新型加权朴素贝叶斯分类算法 [J].
张春英 ;
王晶 .
微计算机信息, 2010, 26 (30) :222-223+192
[6]   基于三音素动态贝叶斯网络模型的大词汇量连续语音识别 [J].
吕国云 ;
赵荣椿 ;
张艳宁 ;
樊养余 ;
Sahli Hichem .
数据采集与处理, 2009, 24 (01) :1-6
[7]   基于类别特征域的文本分类特征选择方法 [J].
赵世奇 ;
张宇 ;
刘挺 ;
陈毅恒 ;
黄永光 ;
李生 .
中文信息学报, 2005, (06) :23-29
[8]  
机器学习[M]. 机械工业出版社 , (美)TomM.Mitchell著, 2003
[9]  
概率论与数理统计[M]. 高等教育出版社 , 盛骤等编, 2001
[10]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47