基于文本分类TFIDF方法的改进与应用

被引:116
作者
张玉芳 [1 ]
彭时名 [1 ]
吕佳 [2 ]
机构
[1] 重庆大学计算机学院
[2] 重庆师范大学数学与计算机科学学院
关键词
文本分类; 特征选择; TFIDF; 类别区分;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
摘要
TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。
引用
收藏
页码:76 / 78
页数:3
相关论文
共 3 条
  • [1] 一种新的基于统计的自动文本分类方法
    刘斌
    黄铁军
    程军
    高文
    [J]. 中文信息学报, 2002, (06) : 18 - 24
  • [2] 用Naive Bayes方法协调分类Web网页
    范焱
    郑诚
    王清毅
    蔡庆生
    刘洁
    [J]. 软件学报, 2001, (09) : 1386 - 1392
  • [3] WWW上的信息挖掘技术及实现
    邹涛
    王继成
    朱华宇
    金翔宇
    张福炎
    [J]. 计算机研究与发展, 1999, (08) : 124 - 129