基于词频分类器集成的文本分类方法

被引:22
作者
姜远
周志华
机构
[1] 南京大学软件新技术国家重点实验室
关键词
文本分类; 机器学习; 集成学习; 词频分类器; AdaBoost;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
提出了一种基于词频分类器集成的文本分类方法·词频分类器是在对文本中的单词和它在每个文本中出现的频率进行统计后得到的简单分类器·虽然词频分类器本身泛化能力不强,但它不仅计算代较小,而且在训练样本甚至类别增加时易于进行更新,而整个学习系统的泛化能力可以由集成学习机制来提高,因此,词频分类器很适合用做集成学习的基分类器·在集成时,使用了改进的AdaBoost算法,加入了一种强制重新分布权的机制,避免算法过早停止,更加适合文本分类任务·在标准文集Reuters-21578上的实验结果表明,该方法能取得很好的效果·
引用
收藏
页码:1681 / 1687
页数:7
相关论文
共 6 条
  • [1] 一种改进的自适应文本信息过滤模型
    马亮
    陈群秀
    蔡莲红
    [J]. 计算机研究与发展, 2005, (01) : 79 - 84
  • [2] 基于全信息矩阵的多分类器集成方法
    唐春生
    金以慧
    [J]. 软件学报, 2003, (06) : 1103 - 1109
  • [3] MultiBoosting: A Technique for Combining Boosting and Wagging[J] . Geoffrey I. Webb.Machine Learning . 2000 (2)
  • [4] BoosTexter: A Boosting-based System for Text Categorization[J] . Robert E. Schapire,Yoram Singer.Machine Learning . 2000 (2-3)
  • [5] An Empirical Comparison of Voting Classification Algorithms: Bagging, Boosting, and Variants[J] . Eric Bauer,Ron Kohavi.Machine Learning . 1999 (1-2)
  • [6] Bagging predictors
    Breiman, L
    [J]. MACHINE LEARNING, 1996, 24 (02) : 123 - 140