基于文档频率的特征选择方法

被引:25
作者
杨凯峰
张毅坤
李燕
机构
[1] 西安理工大学计算机科学与工程学院
关键词
文本分类; 特征选择; 文档频率; 词频率; 支持向量机;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向量机方法训练分类器。实验结果表明,在进行特征选择时,考虑高词频特征词对类别的贡献,可提高传统DF方法的分类性能。
引用
收藏
页码:33 / 35+38 +38
页数:4
相关论文
共 2 条
[1]   基于Log似然比的特征选择算法 [J].
林森 ;
唐发根 .
计算机工程, 2009, 35 (19) :56-58+61
[2]   几种典型特征选取方法在中文网页分类上的效果比较 [J].
单松巍 ;
冯是聪 ;
李晓明 ;
不详 .
计算机工程与应用 , 2003, (22) :146-148