基于半监督学习的数据流集成分类算法

被引:16
作者
徐文华 [1 ]
覃征 [1 ,2 ]
常扬 [2 ]
机构
[1] 清华大学信息科学技术学院计算机系
[2] 清华大学信息科学技术学院软件学院
关键词
属性权值; 概念漂移; 集成分类器; 同质性; K均值聚类; 半监督学习; 数据流分类;
D O I
10.16451/j.cnki.issn1003-6059.2012.02.010
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
已有的数据流分类算法多采用有监督学习,需要使用大量已标记数据训练分类器,而获取已标记数据的成本很高,算法缺乏实用性.针对此问题,文中提出基于半监督学习的集成分类算法SEClass,能利用少量已标记数据和大量未标记数据,训练和更新集成分类器,并使用多数投票方式对测试数据进行分类.实验结果表明,使用同样数量的已标记训练数据,SEClass算法与最新的有监督集成分类算法相比,其准确率平均高5.33%.且运算时间随属性维度和类标签数量的增加呈线性增长,能够适用于高维、高速数据流分类问题.
引用
收藏
页码:292 / 299
页数:8
相关论文
共 5 条
[1]   Developing a feature weight self-adjustment mechanism for a K-means clustering algorithm [J].
Tsai, Chieh-Yuan ;
Chiu, Chuang-Cheng .
COMPUTATIONAL STATISTICS & DATA ANALYSIS, 2008, 52 (10) :4658-4672
[2]  
Error Correlation and Error Reduction in Ensemble Classifiers[J] . Kagan Tumer,Joydeep Ghosh.Connection Science . 1996 (3-4)
[3]   Bagging predictors [J].
Breiman, L .
MACHINE LEARNING, 1996, 24 (02) :123-140
[4]  
Semi-supervised Learning .2 Chapelle O,Sch lkopf B,Zien A. MIT Press . 2006
[5]  
A Framework for On-Demand Classification ofEvolving Data Streams .2 Aggarwal C C,Han J,Wang J,et al. IEEE Transactions on Knowledge and Data Engineering . 2006