基于加权Bayes分类器的流数据在线分类算法研究

被引:3
作者
卢惠林 [1 ,2 ]
机构
[1] 哈尔滨工业大学计算机学院
[2] 江苏省无线传感系统应用技术研发中心
关键词
大数据; 决策树; 分类算法; 流数据;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
传统的分类算法在对模型进行训练之前,需要得到整个训练数据集。然而在大数据环境下,数据以数据流的形式源源不断地流向系统,因此不可能预先获得整个训练数据集。研究了大数据环境下含有噪音的流数据的在线分类问题。将流数据的在线分类描述成一个优化问题,提出了一种加权的Nave Bayes分类器和一种误差敏感的(Error Adaptive)分类器,并通过真实的数据集对提出的算法进行了验证。实验结果表明,文中提出的误差敏感的分类器算法在系统没有噪音的情况下分类预测的准确性要优于相关的算法;此外,当流数据中含有噪音时,误差敏感的分类器算法对噪音不敏感,仍然具有很好的预测准确性,因此可以应用于大数据环境下流数据的在线分类预测。
引用
收藏
页码:227 / 229+234 +234
页数:4
相关论文
共 6 条
[1]   基于RCSW的数据流速度异常检测算法研究 [J].
詹英 ;
吴春明 ;
王宝军 .
电子学报, 2012, 40 (04) :674-680
[2]   一种与缓冲区紧耦合的环形循环滑动窗口的数据流抽取算法 [J].
詹英 ;
吴春明 ;
王宝军 .
电子学报, 2011, 39 (04) :894-898
[3]   关联规则挖掘中Apriori算法的研究与改进 [J].
崔贯勋 ;
李梁 ;
王柯柯 ;
苟光磊 ;
邹航 .
计算机应用, 2010, 30 (11) :2952-2955
[4]   基于单元的快速的大数据集离群数据挖掘算法 [J].
王柯柯 ;
崔贯勋 ;
倪伟 ;
苟光磊 .
重庆邮电大学学报(自然科学版), 2010, (05) :673-677
[5]  
基于增量核主成分分析的数据流在线分类框架[J]. 吴枫,仲妍,吴泉源.自动化学报. 2010(04)
[6]  
Flexible decision tree for data stream classification in the presence of concept change, noise and missing values[J] . Sattar Hashemi,Ying Yang.Data Mining and Knowledge Discovery . 2009 (1)