文本特征加权方法TF·IDF的分析与改进

被引:11
作者
林永民 [1 ]
吕震宇 [1 ]
赵爽 [1 ]
朱卫东 [2 ]
机构
[1] 河北理工大学经济管理学院
[2] 北京交通大学计算机与信息技术学院
关键词
文本分类; 特征选择; 熵; 特征加权; 向量空间模型;
D O I
10.16208/j.issn1000-7024.2008.11.035
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用。但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降。针对TF·IDF方法存在的问题,采用在特征发生的条件下类的后验概率分布来衡量特征对分类的有效性,提出了一种基于熵的特征加权方法TF·Ensu。实验结果表明,这种加权方法具有很好的分类性能。
引用
收藏
页码:2923 / 2925+2929 +2929
页数:4
相关论文
共 7 条
[1]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[2]   基于TFIDF的文本特征选择方法 [J].
柴玉梅 ;
王宇 .
微计算机信息, 2006, (24) :24-26
[3]   使用最大熵模型进行中文文本分类 [J].
李荣陆 ;
王建会 ;
陈晓云 ;
陶晓鹏 ;
胡运发 .
计算机研究与发展, 2005, (01) :94-101
[4]   中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[5]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[6]  
文本分类中的特征降维方法综述[J]. 陈涛,谢阳群.情报学报. 2005 (06)
[7]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90