文本分类中信息增益特征选择算法的改进

被引:13
作者
郭颂 [1 ]
马飞 [2 ]
机构
[1] 信阳师范学院计算机与信息技术学院
[2] 平顶山学院软件学院
关键词
文本分类; 特征选择; 信息增益; 特征分布加权;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
特征选择算法对文本分类系统的精确度有很大影响,传统的信息增益特征选择算法通常会导致在指定类别中很少出现而在其他类别中频繁出现的特征被选择出来。为克服这一缺陷,在对传统算法和相关改进算法深入分析的基础上,引入特征分布差异因子、类内和类间加权因子的改进思路,提出一种基于特征分布加权的信息增益改进算法,并分别采用朴素贝叶斯和支持向量机两种分类算法进行实验。实验结果表明,该算法优于其他改进算法。
引用
收藏
页码:139 / 142
页数:4
相关论文
共 2 条
[1]  
Weka数据挖掘开源平台.2http://www.cs.waikato.ac.nz/ml/weka.
[2]  
AComparativeStudyonFeatureSelectioninTextCategorization.2YangY,PedersenJO.TheFourteenthInternationalConferenceonMachineLearning.1997