共 3 条
文本分类的特征提取方法比较与改进
被引:25
作者:
申红
[1
]
吕宝粮
[1
]
内山将夫
[2
]
井佐原均
[2
]
机构:
[1] 上海交通大学计算机科学与工程系
[2] 国立信息与通讯技术研究所计算语言实验室
来源:
关键词:
特征提取;
文本分类;
互信息;
支持向量机;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
文本的特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。该文介绍了词条的χ2统计方法(CHI)、词条与类别的互信息(MI)、信息增益(IG)、词条的期望交叉熵(CE)等文本特征提取方法,并对其取词策略进行了改进。为了对这些特征提取方法进行系统地比较,选择了三种代表性的分类器对《读卖新闻》文本数据库进行了分类实验。实验结果表明χ2统计方法具有最好的准确率,各种改进的特征提取方法都能提高文本分类的准确率。
引用
收藏
页码:222 / 224
页数:3
相关论文