基于最小词频阈值的文档特征选择

被引:7
作者
陈晓云
李荣陆
胡运发
机构
[1] 复旦大学计算机与信息技术系
关键词
文本分类; 特征选择; 信息增益; 互信息; x2统计;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为降低内容无关的特征词对文本分类系统的影响,在对与文本内容无关的特征词进行分析后发现:不相关特征词的词频普遍较低,利用最小词频阈值滤除低频特征可以明显降低无关特征的数量。为此,提出基于最小词频阈值的文档频评估函数。利用该函数选择特征可以有效减少与内容无关的噪声特征,改善分类质量。实验结果显示,几种基于最小词频阈值的文档频评估函数比基于普通文档频的评估函数的分类准确性有不同程度的改进,其中对互信息的改进最为显著,宏平均F1值比词频方法提高40%,比普通文档频方法提高15%~30%。
引用
收藏
页码:531 / 537
页数:7
相关论文
共 3 条
[1]   基于最小类差异的无关信息预处理算法 [J].
陈治平 ;
林亚平 ;
彭雅 ;
王雷 ;
童调生 .
电子学报, 2003, (11) :1750-1753
[2]   一个无需词典支持和切词处理的中文文档分类系统 [J].
周水庚 ;
关佶红 ;
胡运发 ;
周傲英 .
计算机研究与发展, 2001, (07) :839-844
[3]   基于机器学习的无需人工编制词典的切词系统 [J].
黄萱菁 ;
吴立德 ;
王文欣 ;
叶丹瑾 .
模式识别与人工智能, 1996, 9 (04) :297-303