中文文本分类的特征选取评价

被引:17
作者
孙国菊
张杰
机构
[1] 辽宁信息职业技术学院
[2] 解放军炮兵学院运筹教研组 辽宁 辽阳
[3] 安徽 合肥
关键词
文本分类; 特征选取; 文本表示;
D O I
10.15938/j.jhust.2005.01.022
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种 特征选取方法(文档频度DF、互信息MI、信息增益IG、x2统计X2、术语强度TS)进行评价,选用 NaIve Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x2 的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都 有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的 F1值为64.60%;IG为69.36%,而DF则达到87.01%.
引用
收藏
页码:76 / 78
页数:3
相关论文
共 3 条