文本分类的特征提取方法比较与改进

被引:25
作者
申红 [1 ]
吕宝粮 [1 ]
内山将夫 [2 ]
井佐原均 [2 ]
机构
[1] 上海交通大学计算机科学与工程系
[2] 国立信息与通讯技术研究所计算语言实验室
关键词
特征提取; 文本分类; 互信息; 支持向量机;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本的特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。该文介绍了词条的χ2统计方法(CHI)、词条与类别的互信息(MI)、信息增益(IG)、词条的期望交叉熵(CE)等文本特征提取方法,并对其取词策略进行了改进。为了对这些特征提取方法进行系统地比较,选择了三种代表性的分类器对《读卖新闻》文本数据库进行了分类实验。实验结果表明χ2统计方法具有最好的准确率,各种改进的特征提取方法都能提高文本分类的准确率。
引用
收藏
页码:222 / 224
页数:3
相关论文
共 3 条
[1]   文本分类实现技术 [J].
王灏 ;
黄厚宽 ;
田盛丰 .
广西师范大学学报(自然科学版), 2003, (01) :173-179
[2]   文本分类中的特征抽取 [J].
秦进 ;
陈笑蓉 ;
汪维家 ;
陆汝占 .
计算机应用, 2003, (02) :45-46
[3]   独立于语种的文本分类方法 [J].
黄萱菁 ;
吴立德 ;
石崎洋之 ;
徐国伟 .
中文信息学报, 2000, (06) :1-7