一种改进的特征权重算法

被引:20
作者
张瑜
张德贤
机构
[1] 河南工业大学信息科学与工程学院
关键词
文本分类; 特征权重; 类间偏斜度; 类内离散度; 权重调整因子;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
特征权重算法对文本分类系统的精确度有很大影响,传统的TFIDF算法未能考虑特征项在类间和类内的分布情况。为此,在对传统算法和相关改进算法进行分析的基础上,引入类间偏斜度、类内离散度和权重调整因子的改进思路,提出一种基于WA-DI-SI的特征权重改进算法,分别采用支持向量机和朴素贝叶斯2种分类算法进行测试。测试结果表明,与其他改进算法相比,该算法能够获得更好的分类效果。
引用
收藏
页码:210 / 212
页数:3
相关论文
共 6 条
[1]   TFIDF算法研究综述 [J].
施聪莺 ;
徐朝军 ;
杨晓江 .
计算机应用, 2009, 29(S1) (S1) :167-170+180
[2]   基于反馈信息的特征权重调整方法 [J].
李艳玲 ;
戴冠中 ;
余梅 .
计算机工程, 2009, 35 (02) :206-207+229
[3]   文本分类中特征权重算法的改进 [J].
沈志斌 ;
白清源 .
南京师范大学学报(工程技术版), 2008, (04) :95-98+149
[4]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[5]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 ;
不详 .
计算机工程与应用 , 2005, (01) :181-184+220
[6]  
中文文本分类语料库-TanCorpV1.0 .2 谭松波,王月粉. http://www.searchforum.org.cn/tansongbo/corpus1.php . 2006