共 3 条
自动文本分类中权值公式的改进
被引:26
作者:
寇莎莎
魏振军
机构:
[1] 解放军信息工程大学信息研究系
来源:
关键词:
文本分类;
TF-IDF;
向量空间;
特征项;
特征权重;
D O I:
10.16208/j.issn1000-7024.2005.06.070
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
在自动文本分类中,TF-IDF公式是常用的词语权重计算公式,但是TF-IDF公式是一种经验公式,并没有坚实的理论基础,它并不适用于任何情况下。通过信息论和概率证明了,在训练文本同属一个类别时,词语的重要性与词语的文档频率成正比,并对TF-IDF进行了改进,得到了改进的权值公式。改进的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了算法的分类精度。
引用
收藏
页码:1616 / 1618
页数:3
相关论文