基于类内频率的文本分类特征选择方法

被引:4
作者
崔彩霞 [1 ]
王素格 [2 ]
机构
[1] 太原师范学院计算机系
[2] 山西大学数学科学学院
关键词
文本分类; 特征选择; 文档频率; 信息增益; 互信息;
D O I
10.16208/j.issn1000-7024.2007.17.043
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
随着计算机技术和WWW的飞速发展,文本分类已经成为信息检索的关键技术之一,而特征选择对分类效果起着至关重要的作用。对文本分类的4种常用特征选择方法进行了介绍和分析,提出了一种基于类内频率的特征选择方法。选用kNN法和支持向量机作为分类器,利用以上5种文本特征选择方法在平衡语料和非平衡语料上进行了测试。实验结果表明,该方法能够有效选出真正对分类有意义的特征,分类效果较好,尤其适合支持向量机分类器。
引用
收藏
页码:4249 / 4251+4265 +4265
页数:4
相关论文
共 6 条
[1]   文本分类中的特征选择方法 [J].
程泽凯 ;
陆小艺 .
安徽工业大学学报(自然科学版), 2004, (03) :220-224
[2]   中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[3]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[4]  
基于支持向量机的文本分类方法研究.[D].崔彩霞.山西大学.2005, 07
[5]  
知识发现.[M].史忠植著;.清华大学出版社.2002,
[6]  
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,