一种基于属性加权补集的朴素贝叶斯文本分类算法

被引:16
作者
陈凯 [1 ,2 ]
黄英来 [1 ]
高文韬 [1 ]
赵鹏 [1 ]
机构
[1] 东北林业大学信息与计算机工程学院
[2] 哈尔滨地铁集团有限公司
关键词
属性加权; 文本分类; 朴素贝叶斯; 不均衡数据集;
D O I
10.15938/j.jhust.2018.04.013
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重;利用当前类别补集的特征表示当前类别的特征并结合特征词在文档中的权重,解决分类器容易倾向大类别而忽略小类别的问题。与传统的朴素贝叶斯及补集朴素贝叶斯算法进行对比实验,结果表明:在样本集分布不均衡时,改进算法的性能表现最优,分类准确率、召回率及G-mean性能分别可达82.92%、84.6%、88.76%。
引用
收藏
页码:69 / 74
页数:6
相关论文
共 9 条
[1]   基于互信息的加权朴素贝叶斯文本分类算法 [J].
武建军 ;
李昌兵 .
计算机系统应用, 2017, 26 (07) :178-182
[2]   一种深度学习的信息文本分类算法 [J].
吕淑宝 ;
王明月 ;
翟祥 ;
陈宇 .
哈尔滨理工大学学报, 2017, 22 (02) :105-111
[3]   基于朴素贝叶斯的文本分类研究综述 [J].
贺鸣 ;
孙建军 ;
成颖 .
情报科学 , 2016, (07) :147-154
[4]   基于加权补集的朴素贝叶斯文本分类算法研究 [J].
杜选 .
计算机应用与软件, 2014, 31 (09) :253-255
[5]   基于朴素贝叶斯模型的邮件过滤技术 [J].
杨赫 ;
孙广路 ;
何勇军 .
哈尔滨理工大学学报, 2014, 19 (01) :49-53
[6]  
KNN with TF-IDF based Framework for Text Categorization[J] . Bruno Trstenjak,Sasa Mikac,Dzenana Donko.Procedia Engineering . 2014
[7]  
Naive Bayes text classifiers: a locally weighted learning approach[J] . Liangxiao Jiang,Zhihua Cai,Harry Zhang,Dianhong Wang.Journal of Experimental & Theoretical Artificial Intelligence . 2013 (2)
[8]  
Cluster-based under-sampling approaches for imbalanced data distributions[J] . Show-Jane Yen,Yue-Shi Lee.Expert Systems With Applications . 2008 (3)
[9]  
Bayesian Multinomial Na6ve Bayes Classifier to Text Classification. XU S,LI Y,WANG Z. Advanced Multimedia and Ubiquitous Engineering . 2017