一种基于TF-IDF的朴素贝叶斯算法改进

被引:18
作者
许甜华
吴明礼
机构
[1] 北方工业大学信息学院
关键词
朴素贝叶斯; TF-IDF算法; 去中心化; 位置信息; 特征权重;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
目前对以朴素贝叶斯算法为代表的文本分类算法,普遍存在特征权重一致,考虑指标单一等问题。为了解决这个问题,提出了一种基于TF-IDF的朴素贝叶斯改进算法TF-IDF-DL朴素贝叶斯算法。该算法以TF-IDF为基础,引入去中心化词频因子和特征词位置因子以加强特征权重的准确性。为了验证该算法的效果,采用了搜狗实验室的搜狗新闻数据集进行实验,实验结果表明,在朴素贝叶斯分类算法中引入TF-IDF-DL算法,能够使该算法在进行文本分类中的准确率、召回率和F1值都有较好的表现,相比国内同类研究TF-IDF-dist贝叶斯方案,分类准确率提高8.6%,召回率提高11.7%,F1值提高7.4%。因此该算法能较好地提高分类性能,并且对不易区分的类别也能在一定程度上达到良好的分类效果。
引用
收藏
页码:75 / 79
页数:5
相关论文
共 10 条
[1]  
基于改进型特征选择算法的文本分类方法研究.[D].付鑫.山东师范大学.2018, 12
[2]   文本分类中TF-IDF权重计算方法改进 [J].
隗中杰 .
软件导刊, 2018, 17 (12) :39-42
[3]   文本分类TF-IDF算法的改进研究 [J].
叶雪梅 ;
毛雪岷 ;
夏锦春 ;
王波 .
计算机工程与应用 , 2019, (02) :104-109+161
[4]   一种基于属性加权补集的朴素贝叶斯文本分类算法 [J].
陈凯 ;
黄英来 ;
高文韬 ;
赵鹏 .
哈尔滨理工大学学报, 2018, 23 (04) :69-74
[5]   文本分类中特征权重算法改进研究 [J].
李鹏鹏 ;
范会敏 .
计算机与现代化, 2018, (02) :66-70
[6]   基于改进的TF-IDF权重的短文本分类算法 [J].
杨彬 ;
韩庆文 ;
雷敏 ;
张亚鹏 ;
刘向国 ;
杨亚强 ;
马雪峰 .
重庆理工大学学报(自然科学), 2016, 30 (12) :108-113
[7]   基于改进的TF-IDF方法的文本相似度算法研究 [J].
周丽杰 ;
于伟海 ;
郭成 .
泰山学院学报, 2015, 37 (03) :18-22
[8]   用于文本分类的特征项权重算法改进 [J].
龚静 ;
胡平霞 ;
胡灿 .
计算机技术与发展, 2014, 24 (09) :128-132
[9]   基于改进TF-IDF算法的情报关键词提取方法 [J].
张瑾 .
情报杂志, 2014, 33 (04) :153-155
[10]   基于改进的TF-IDF特征权重算法的网页自动分类 [J].
蔡银珊 ;
黄英铭 .
绵阳师范学院学报, 2010, 29 (08) :106-109