基于Bootstrapping的因特网流量分类方法

被引:5
作者
刘珍 [1 ,2 ]
王若愚 [2 ]
刘琼 [1 ,2 ]
机构
[1] 华南理工大学软件学院
[2] 华南理工大学计算机科学与工程学院
关键词
半监督学习; 类别不平衡; Bootstrapping; Internet流量分类;
D O I
暂无
中图分类号
TP393.06 [];
学科分类号
摘要
针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡,提出基于Bootstrapping的流量分类方法,使用少量有标记样本训练初始分类器,迭代利用无标记样本扩展样本集并更新分类器.在构建扩展样本集过程中,将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件,建立新的置信度计算方法,以减少扩展样本集中的噪声样本;基于概率近似正确学习理论建立启发式规则,注重选择小类样本加入扩展样本集,缓解类别样本数分布的不平衡.实验结果表明,与初始分类器相比,基于Bootstrapping的流量分类器总体分类准确率可提高9.46%;与现有半监督学习方法相比,小类分类准确率提高2.22%.
引用
收藏
页码:66 / 70+79 +79
页数:6
相关论文
共 4 条
[1]
Network traffic classification based on ensemble learning and co-training[J] HE HaiTao1;2;3;LUO XiaoNan1;2;MA FeiTeng1;CHE ChunHui1 & WANG JianMin1;2 1 School of Information Science and Technology;Sun Yat-Sen University;Guangzhou 510275;China; 2 Key Laboratory of Digital Life (Sun Yat-sen University);Ministry of Education;Guangzhou 510275;China; 3 Information and Network Center;Sun Yat-Sen University;Guangzhou 510275;China Science in China(Series F:Information Sciences) 2009, 02
[2]
基于流统计特性的网络流量分类算法 [J].
林平 ;
余循宜 ;
刘芳 ;
雷振明 .
北京邮电大学学报, 2008, (02) :15-19
[3]
Efficient application identification and the temporal and spatial stability of classification schema[J] Wei Li;Marco Canini;Andrew W. Moore;Raffaele Bolla Computer Networks 2008,
[4]
Bagging predictors[J] Leo Breiman Machine Learning 1996,