共 10 条
基于类信息的TF-IDF权重分析与改进
被引:8
作者:
姚严志
李建良
机构:
[1] 南京理工大学理学院
来源:
关键词:
TF-IDF算法;
类信息;
权重分析;
文本分类;
D O I:
10.15888/j.cnki.csa.008066
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
经典的TF-IDF算法仅考虑了特征词频率和逆文档频率等,忽略了特征词的类间、类内分布信息.本文通过TF-IDF算法计算特征词在不同规模语料库中的权重,分析特征词的类信息对权重的影响,并进一步针对该影响提出一种新的衡量特征词的类间、类内分布信息的方法.本文通过增加两个新的权值,类间离散因子和类内离散因子,将其与经典的TF-IDF算法结合,提出了基于类信息的改进的TF-IDF-CI算法.本文通过朴素贝叶斯模型对改进后的算法的分类性能进行了验证.实验证明,改进后的权重算法在测试数据集上的表现,在准确率、召回率和F1值上均优于经典的TF-IDF算法.
引用
收藏
页码:237 / 241
页数:5
相关论文