共 11 条
用于文本分类的特征项权重算法改进
被引:9
作者:
龚静
胡平霞
胡灿
机构:
[1] 湖南环境生物职业技术学院信息技术系
来源:
关键词:
文本分类;
特征项;
权重;
改进;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
TF-IDF算法是文本分类中一种常用的权重计算方法,但是TF-IDF仅仅考虑了特征项在文本中出现的次数以及该特征项在训练集中的出现频率,没有考虑特征项在各个类间的分布情况及特征项的语义信息。因此针对TF-IDF的不足提出了一种改进的TF-IDF算法,此算法既考虑了特征项在类内的分布情况又考虑了特征项的位置及长度等语义因素,能更好地反映特征项的重要性。用朴素贝叶斯分类器验证其有效性,实验结果表明该算法优于TF-IDF算法,能较好地提高文本分类的准确率。
引用
收藏
页码:128 / 132
页数:5
相关论文