自动文本分类特征选择方法研究

被引:45
作者
张海龙
王莲芝
机构
[1] 中国农业大学信息与电气工程学院
关键词
文本分类; 特征选择; 信息增益; 互信息; X2统计量法; 文档频率; 低损降维; 频率差;
D O I
10.16208/j.issn1000-7024.2006.20.034
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本分类是指根据文本的内容将大量的文本归到一个或多个类别的过程,文本表示技术是文本分类的核心技术之一,而特征选择又是文本表示技术的关键技术之一,对分类效果至关重要。文本特征选择是最大程度地识别和去除冗余信息,提高训练数据集质量的过程。对文本分类的特征选择方法,包括信息增益、互信息、2统计量、文档频率、低损降维和频率差法等做了详细介绍、分析、比较研究。
引用
收藏
页码:3838 / 3841
页数:4
相关论文
共 5 条
[1]  
自动文本分类若干基本问题研究.[D].宋枫溪.南京理工大学.2004, 04
[2]   自动文本分类中权值公式的改进 [J].
寇莎莎 ;
魏振军 .
计算机工程与设计, 2005, (06) :1616-1618
[3]   一种改进的文本网页分类特征选择方法 [J].
李粤 ;
李星 ;
刘辉 ;
许静芳 .
计算机应用, 2004, (07) :119-121
[4]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[5]   Multi-instance learning based web mining [J].
Zhou, ZH ;
Jiang, K ;
Li, M .
APPLIED INTELLIGENCE, 2005, 22 (02) :135-147