文本分类中特征选择方法的分析和改进

被引:2
作者
许朝阳
机构
[1] 莆田学院电子信息工程系
关键词
文本分类; 信息增益; 特征选择; 熵;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。基于向量空间的文本分类方法中,信息增益是一种有效的特征选择方法。本文改进信息增益的特征选择方法:降低负类对分类的贡献;改进特征项在类中的均匀程度对分类的贡献。实验结果表明,经过改进的信息增益的特征选择方法在分类效果上有显著的提高。
引用
收藏
页码:37 / 39
页数:3
相关论文
共 7 条
[1]   文本分类中结合评估函数的TEF-WA权值调整技术 [J].
唐焕玲 ;
孙建涛 ;
陆玉昌 .
计算机研究与发展, 2005, (01) :47-53
[2]   中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[3]   文本分类中的特征抽取 [J].
秦进 ;
陈笑蓉 ;
汪维家 ;
陆汝占 .
计算机应用, 2003, (02) :45-46
[4]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[5]  
机器学习[M]. 机械工业出版社 , (美)TomM.Mitchell著, 2003
[6]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[7]  
Feature selection for unbalanced class Distribution and Naive Bayes .2 D. Mladenic‘,and M. Grobelnik. Proceedings of the16th International Conference on Machine Learning ICML99 . 1999