共 3 条
基于最小词频阈值的文档特征选择
被引:7
作者:
陈晓云
李荣陆
胡运发
机构:
[1] 复旦大学计算机与信息技术系
来源:
关键词:
文本分类;
特征选择;
信息增益;
互信息;
x2统计;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
为降低内容无关的特征词对文本分类系统的影响,在对与文本内容无关的特征词进行分析后发现:不相关特征词的词频普遍较低,利用最小词频阈值滤除低频特征可以明显降低无关特征的数量。为此,提出基于最小词频阈值的文档频评估函数。利用该函数选择特征可以有效减少与内容无关的噪声特征,改善分类质量。实验结果显示,几种基于最小词频阈值的文档频评估函数比基于普通文档频的评估函数的分类准确性有不同程度的改进,其中对互信息的改进最为显著,宏平均F1值比词频方法提高40%,比普通文档频方法提高15%~30%。
引用
收藏
页码:531 / 537
页数:7
相关论文