基于类信息的TF-IDF权重分析与改进

被引:8
作者
姚严志
李建良
机构
[1] 南京理工大学理学院
关键词
TF-IDF算法; 类信息; 权重分析; 文本分类;
D O I
10.15888/j.cnki.csa.008066
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
经典的TF-IDF算法仅考虑了特征词频率和逆文档频率等,忽略了特征词的类间、类内分布信息.本文通过TF-IDF算法计算特征词在不同规模语料库中的权重,分析特征词的类信息对权重的影响,并进一步针对该影响提出一种新的衡量特征词的类间、类内分布信息的方法.本文通过增加两个新的权值,类间离散因子和类内离散因子,将其与经典的TF-IDF算法结合,提出了基于类信息的改进的TF-IDF-CI算法.本文通过朴素贝叶斯模型对改进后的算法的分类性能进行了验证.实验证明,改进后的权重算法在测试数据集上的表现,在准确率、召回率和F1值上均优于经典的TF-IDF算法.
引用
收藏
页码:237 / 241
页数:5
相关论文
共 10 条
[1]   一种基于TF-IDF的朴素贝叶斯算法改进 [J].
许甜华 ;
吴明礼 .
计算机技术与发展, 2020, 30 (02) :75-79
[2]   改进朴素贝叶斯算法在文本分类中的应用 [J].
黄勇 ;
罗文辉 ;
张瑞舒 .
科技创新与应用, 2019, (05) :24+27-24
[3]   Web文档分类中TFIDF特征选择算法的改进 [J].
段国仑 ;
谢钧 ;
郭蕾蕾 ;
王晓莹 .
计算机技术与发展, 2019, 29 (05) :49-53
[4]   文本分类TF-IDF算法的改进研究 [J].
叶雪梅 ;
毛雪岷 ;
夏锦春 ;
王波 .
计算机工程与应用 , 2019, (02) :104-109+161
[5]   文本分类中特征权重算法改进研究 [J].
李鹏鹏 ;
范会敏 .
计算机与现代化, 2018, (02) :66-70
[6]   一种基于类别描述的TF-IDF特征选择方法的改进 [J].
徐冬冬 ;
吴韶波 .
现代图书情报技术, 2015, (03) :39-48
[7]   关键词自动提取方法的研究与改进 [J].
黄磊 ;
伍雁鹏 ;
朱群峰 .
计算机科学, 2014, 41 (06) :204-207
[8]   基于信息熵的改进TFIDF特征选择算法 [J].
周炎涛 ;
唐剑波 ;
王家琴 .
计算机工程与应用, 2007, (35) :156-158+171
[9]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[10]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 ;
不详 .
计算机工程与应用 , 2005, (01) :181-184+220