面向短文本的动态组合分类算法

被引:30
作者
闫瑞 [1 ,2 ]
曹先彬 [1 ,2 ]
李凯 [3 ]
机构
[1] 中国科学技术大学计算机科学技术系
[2] 安徽省计算与通讯软件重点实验室
[3] 解放军保密委员会技术安全研究所
关键词
短文本分类; 组合分类器; 动态调整策略; AdaBoost算法;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
短文本分类是网络内容安全的一种主要方法.然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对长文本的分类算法.本文提出了一种针对短文本的动态组合分类算法.首先构造出一种树状组合分类器结构,可有效缓解短文本特征稀疏和样本高度不均衡对分类性能的影响;进一步,提出了一种动态调整策略来训练组合分类器,可以根据样本的分布特点自适应地调整分类器的组合结构.测试实验表明,相对于传统的单一分类方法和集成分类方法,动态组合分类算法在短文本分类中可以获得更好的准确率和召回率.
引用
收藏
页码:1019 / 1024
页数:6
相关论文
共 2 条
[1]  
BoosTexter: A Boosting-based System for Text Categorization[J] . Robert E. Schapire,Yoram Singer.Machine Learning . 2000 (2-3)
[2]   Bayesian Network Classifiers [J].
Nir Friedman ;
Dan Geiger ;
Moises Goldszmidt .
Machine Learning, 1997, 29 :131-163