一种基于类别分布信息的文本特征选择模型

被引:5
作者
刘海峰 [1 ]
于利军 [2 ]
刘守生
机构
[1] 解放军理工大学理学院
[2] 解放军理工大学气象海洋学院
关键词
文本分类; 特征选择; TF-IDF; 类内分布; 类间分布;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
TF-IDF是一种常用的文本特征选择方法。基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的TF及IDF部分进行加权,提出一种基于类别分布信息的文本特征选择模型。新模型使得TF部分含有类内文本频数信息,同时IDF部分含有特征项的类间频数信息。随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,F1值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性。
引用
收藏
页码:137 / 141
页数:5
相关论文
共 9 条
[1]   基于信息增益与信息熵的TFIDF算法 [J].
李学明 ;
李海瑞 ;
薛亮 ;
何光军 .
计算机工程, 2012, 38 (08) :37-40
[2]   基于TF*IDF的垃圾邮件过滤特征选择改进算法 [J].
陈琦 ;
伍朝辉 ;
姚芳 ;
宋秀荣 ;
张付志 .
计算机应用研究, 2009, 26 (06) :2165-2167
[3]   文本特征加权方法TF·IDF的分析与改进 [J].
林永民 ;
吕震宇 ;
赵爽 ;
朱卫东 .
计算机工程与设计, 2008, (11) :2923-2925+2929
[4]   文本分类中词语权重计算方法的改进与应用 [J].
熊忠阳 ;
黎刚 ;
陈小莉 ;
陈伟 .
计算机工程与应用, 2008, (05) :187-189
[5]   基于TFIDF的特征选择方法 [J].
王美方 ;
刘培玉 ;
朱振方 .
计算机工程与设计, 2007, (23) :5795-5796+5799
[6]   基于信息熵的改进TFIDF特征选择算法 [J].
周炎涛 ;
唐剑波 ;
王家琴 .
计算机工程与应用 , 2007, (35) :156-158+171
[7]   一种基于多重因子加权的文本特征项权值计算方法 [J].
龚静 ;
周经野 .
计算技术与自动化, 2007, (01) :81-83+86
[8]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[9]   EXTENDED BOOLEAN INFORMATION-RETRIEVAL [J].
SALTON, G ;
FOX, EA ;
WU, H .
COMMUNICATIONS OF THE ACM, 1983, 26 (11) :1022-1036