基于信息增益与信息熵的TFIDF算法

被引:48
作者
李学明
李海瑞
薛亮
何光军
机构
[1] 重庆大学计算机学院
关键词
文本分类; 信息增益; 信息熵; TFIDF算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TFIDF算法和TFIDFIG算法相比,TFIDFIGE算法的查准率和查全率较高。
引用
收藏
页码:37 / 40
页数:4
相关论文
共 7 条
[1]   文本分类特征权重改进算法 [J].
台德艺 ;
王俊 .
计算机工程, 2010, 36 (09) :197-199+202
[2]   TFIDF算法研究综述 [J].
施聪莺 ;
徐朝军 ;
杨晓江 .
计算机应用, 2009, 29(S1) (S1) :167-170+180
[3]   基于潜在语义索引的文本特征词权重计算方法 [J].
李媛媛 ;
马永强 .
计算机应用, 2008, (06) :1460-1462+1466
[4]   基于信息增益的特征词权重调整算法研究 [J].
张玉芳 ;
陈小莉 ;
熊忠阳 .
计算机工程与应用 , 2007, (35) :159-161
[5]   一种基于多重因子加权的文本特征项权值计算方法 [J].
龚静 ;
周经野 .
计算技术与自动化, 2007, (01) :81-83+86
[6]   用于文本挖掘的特征选择方法TFIDF及其改进 [J].
景丽萍 ;
黄厚宽 ;
石洪波 .
广西师范大学学报(自然科学版), 2003, (01) :142-145
[7]   EXTENDED BOOLEAN INFORMATION-RETRIEVAL [J].
SALTON, G ;
FOX, EA ;
WU, H .
COMMUNICATIONS OF THE ACM, 1983, 26 (11) :1022-1036