基于文本分类TFIDF方法的改进与应用

被引：116

作者：

张玉芳 ^{[1
]}

彭时名 ^{[1
]}

吕佳 ^{[2
]}

机构：

[1] 重庆大学计算机学院

[2] 重庆师范大学数学与计算机科学学院

来源：

计算机工程 | 2006年 / 19期

关键词：

文本分类; 特征选择; TFIDF; 类别区分;

D O I：

暂无

中图分类号：

TP301.6 [算法理论];

学科分类号：

摘要：

TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。

引用

页码：76 / 78

页数：3