文本分类中的类别信息特征选择方法

被引:17
作者
余俊英
王明文
盛俊
机构
[1] 江西师范大学计算机信息工程学院
关键词
特征选择; 文本分类; 类间分布; 类内分布;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
140502 [人工智能];
摘要
随着网上电子文档的急剧增长,文本分类技术在信息检索中的应用变得日益重要.特征维数增加会使样本统计特性的评估变得更加困难,从而降低分类器的泛化能力,出现“过学习”的现象.因此,文档特征的选择和提取是文本分类的必要前提.提出一种基于类别信息的特征选择方法,该方法在尽量保留文档信息的同时,考虑了文档的类别信息.实验表明,这种方法的分类性能比较好,特别是在微平均指标上,与OCFS以及卡方统计量相比有较大幅度的提高.
引用
收藏
页码:144 / 148
页数:5
相关论文
共 2 条
[1]
向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[2]
文本分类中的特征降维方法综述.[J].陈涛;谢阳群;.情报学报.2005, 06