中文文本分类中的特征选择算法研究

被引:46
作者
胡佳妮
徐蔚然
郭军
邓伟洪
机构
[1] 北京邮电大学
[2] 北京邮电大学 北京 
[3] 北京 
关键词
文本分类; 特征选择; 评价函数;
D O I
10.13756/j.gtxyj.2005.03.014
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
比较了文档频率、信息增益、互信息、X2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家"八六三计划"中文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。
引用
收藏
页码:44 / 46
页数:3
相关论文
共 7 条