自动文本分类中权值公式的改进

被引:26
作者
寇莎莎
魏振军
机构
[1] 解放军信息工程大学信息研究系
关键词
文本分类; TF-IDF; 向量空间; 特征项; 特征权重;
D O I
10.16208/j.issn1000-7024.2005.06.070
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在自动文本分类中,TF-IDF公式是常用的词语权重计算公式,但是TF-IDF公式是一种经验公式,并没有坚实的理论基础,它并不适用于任何情况下。通过信息论和概率证明了,在训练文本同属一个类别时,词语的重要性与词语的文档频率成正比,并对TF-IDF进行了改进,得到了改进的权值公式。改进的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了算法的分类精度。
引用
收藏
页码:1616 / 1618
页数:3
相关论文
共 3 条
  • [1] 一种基于向量空间模型的多层次文本分类方法
    刘少辉
    董明楷
    张海俊
    李蓉
    史忠植
    [J]. 中文信息学报, 2002, (03) : 8 - 14+26
  • [2] 文本自动分类中的词权重与分类算法
    刁倩
    王永成
    张惠惠
    何骥
    [J]. 中文信息学报, 2000, (03) : 25 - 29
  • [3] 文本分类中基于对数似然比测试的特征词选择方法
    李国臣
    [J]. 中文信息学报, 1999, (04) : 17 - 22