共 3 条
基于文本分类TFIDF方法的改进与应用
被引:116
作者:
张玉芳
[1
]
彭时名
[1
]
吕佳
[2
]
机构:
[1] 重庆大学计算机学院
[2] 重庆师范大学数学与计算机科学学院
来源:
关键词:
文本分类;
特征选择;
TFIDF;
类别区分;
D O I:
暂无
中图分类号:
TP301.6 [算法理论];
学科分类号:
摘要:
TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。
引用
收藏
页码:76 / 78
页数:3
相关论文