共 2 条
基于文档频率的特征选择方法
被引:25
作者:
杨凯峰
张毅坤
李燕
机构:
[1] 西安理工大学计算机科学与工程学院
来源:
关键词:
文本分类;
特征选择;
文档频率;
词频率;
支持向量机;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向量机方法训练分类器。实验结果表明,在进行特征选择时,考虑高词频特征词对类别的贡献,可提高传统DF方法的分类性能。
引用
收藏
页码:33 / 35+38
+38
页数:4
相关论文