中文文本分类中的特征选择研究

被引:33
作者
寇苏玲
蔡庆生
机构
[1] 中国科学技术大学计算机系
关键词
特征选择; 特征提取; 文本分类;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
有多种特征选择算法被用于文本自动分类,YimingYang教授曾针对英文文本分类中的特征选择做过深入的研究,并得出结论:IG和CHI方法效果相对较好。考虑到该结论不一定适合对中文文本的分类,对中文文本分类中的特征选择方法进行研究,采用了包含500篇新闻的中文语料库对几种特征选择算法进行测试,结果表明:在测试的特征选择算法中,X2估计方法无需因训练集的改变而人为调节特征阀值,并且分类准确率较高。
引用
收藏
页码:289 / 291
页数:3
相关论文
共 3 条
  • [1] 文本分类中的特征抽取
    秦进
    陈笑蓉
    汪维家
    陆汝占
    [J]. 计算机应用, 2003, (02) : 45 - 46
  • [2] 支持向量机训练算法综述
    刘江华
    程君实
    陈佳品
    [J]. 信息与控制, 2002, (01) : 45 - 50
  • [3] 特征选择和提取要素的分析及其评价
    范劲松
    方廷健
    不详
    [J]. 计算机工程与应用 , 2001, (13) : 95 - 99