文本分类中特征提取方法的比较与研究

被引:11
作者
郑伟 [1 ]
王锐 [2 ]
机构
[1] 河北北方学院理学院物理系
[2] 河北北方学院理学院计算机系
关键词
文本分类; 互信息; 信息增益; SVM; 特征提取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
介绍了进行文本分类的关键技术,着重介绍了常用的文本特征提取方法.选取支持向量机方法作为文本分类器方法,选取不同特征提取方法应用于文本分类,通过实验,比较和分析了由不同的提取方法所构成的分类器的分类性能,确定了信息增益(IG)法和文本证据权(WET)为两种性能优异的特征提取方法.该结论可为分类性能进一步的优化研究奠定理论和实践基础.
引用
收藏
页码:51 / 54+64 +64
页数:5
相关论文
共 5 条
[1]   基于支持向量机的Web文本分类方法 [J].
牛强 ;
王志晓 ;
陈岱 ;
夏士雄 .
微电子学与计算机, 2006, (09) :102-104
[2]   文本自动分类技术及其应用 [J].
方兰 ;
王明文 .
计算机与现代化, 2004, (07) :25-28
[3]   Web文本信息的特征获取算法 [J].
刘明吉 ;
王秀峰 ;
饶一梅 ;
黄亚楼 .
小型微型计算机系统, 2002, (06) :683-686
[4]  
现代信息检索.[M].()RicardoBaeza-Yates;()BerthierRibeiro-Neto等著;王知津;贾福新;郑红军等译;.机械工业出版社.2005,
[5]  
信息检索理论与技术.[M].苏新宁主编;.科学技术文献出版社.2004,