中文文本分类中的特征选择研究

被引:157
作者
周茜
赵明生
扈旻
机构
[1] 清华大学电子工程系
关键词
计算机应用; 中文信息处理; 文本分类; 特征选择; 类别区分词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同的数据集上分别作了训练和测试 ,结果表明 ,在这八种文本特征选择方法中 ,多类优势率和类别区分词方法取得了最好的选择效果。其中 ,当用Na veBayes分类方法对各类分布严重不均的 13890样本集作训练和测试时 ,当特征维数大于 80 0 0以后 ,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出 3%~ 5 %左右。
引用
收藏
页码:17 / 23
页数:7
相关论文
共 4 条