文本分类中特征权重算法的改进

被引:14
作者
沈志斌
白清源
机构
[1] 福州大学数学与计算机科学学院
关键词
文本分类; 特征权重; TFIDF; 类别区分; BOR-TFIDF;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
TFIDF是文档特征权重表示常用方法.该方法简单易行,但忽略了特征词在各个类别中的分布情况,不能真正地反映特征词对区分每个类的贡献.针对这个不足,本文提出了BOR-TFIDF,来重新调整每个特征词对各个类别的区分度,即修正各个特征词的权重,并用分类器来验证其有效性.该方法优于原来的TFIDF算法,实验表明了改进的策略是可行的.
引用
收藏
页码:95 / 98+149 +149
页数:5
相关论文
共 5 条
[1]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[2]   自动文本分类中权值公式的改进 [J].
寇莎莎 ;
魏振军 .
计算机工程与设计, 2005, (06) :1616-1618
[3]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 ;
不详 .
计算机工程与应用 , 2005, (01) :181-184+220
[4]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47
[5]   AN EXAMPLE-BASED MAPPING METHOD FOR TEXT CATEGORIZATION AND RETRIEVAL [J].
YANG, YM ;
CHUTE, CG .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 1994, 12 (03) :252-277