基于特征项分布的信息熵及特征动态加权概念漂移检测模型

被引:11
作者
孙雪 [1 ]
李昆仑 [2 ]
韩蕾 [1 ]
白晓亮 [1 ]
机构
[1] 河北大学工商学院
[2] 河北大学电子信息工程学院
关键词
概念漂移; LDA模型; 特征项分布; 信息熵;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
现有的概念漂移算法大多建立在数据流的分类模型上,忽略了特征空间与样本空间的分布特点,以及特征选择和加权的重要性.针对此问题提出了一种基于特征项分布的信息熵及特征动态加权算法,从概念漂移的动态演化性出发,根据样本和特征空间的拟合程度,运用特征信息熵理论对数据流中的概念漂移现象进行捕捉,以实现新旧概念的过渡.利用改进的隐含Dirichlet模型特征动态加权算法,以解决当前特征与历史特征的权重确定和无效特征的裁剪问题.在公开的语料库CCERT和Trec06上的测试实验证明了所提出算法的有效性.
引用
收藏
页码:1356 / 1361
页数:6
相关论文
共 12 条
[1]
RCD: A recurring concept drift framework [J].
Goncalves, Paulo Mauricio, Jr. ;
Major de Barros, Roberto Souto .
PATTERN RECOGNITION LETTERS, 2013, 34 (09) :1018-1025
[2]
An adaptive ensemble classifier for mining concept drifting data streams [J].
Farid, Dewan Md. ;
Zhang, Li ;
Hossain, Alamgir ;
Rahman, Chowdhury Mofizur ;
Strachan, Rebecca ;
Sexton, Graham ;
Dahal, Keshav .
EXPERT SYSTEMS WITH APPLICATIONS, 2013, 40 (15) :5895-5906
[3]
Learning from streaming data with concept drift and imbalance: an overview [J].
Hoens, T. Ryan ;
Polikar, Robi ;
Chawla, Nitesh V. .
PROGRESS IN ARTIFICIAL INTELLIGENCE, 2012, 1 (01) :89-101
[4]
Learning in the presence of concept drift and hidden contexts [J].
Widmer, G ;
Kubat, M .
MACHINE LEARNING, 1996, 23 (01) :69-101
[5]
概念漂移数据流分类研究综述 [J].
文益民 ;
强保华 ;
范志刚 .
智能系统学报, 2013, 8 (02) :95-104
[6]
基于频繁概念直乘分布的全局闭频繁项集挖掘算法 [J].
柴玉梅 ;
张卓 ;
王黎明 .
计算机学报, 2012, 35 (05) :990-1001
[7]
基于半监督学习的数据流集成分类算法 [J].
徐文华 ;
覃征 ;
常扬 .
模式识别与人工智能, 2012, 25 (02) :292-299
[8]
一种基于双层窗口的概念漂移数据流分类算法 [J].
朱群 ;
张玉红 ;
胡学钢 ;
李培培 .
自动化学报, 2011, 37 (09) :1077-1084
[9]
一种不平衡数据流集成分类模型 [J].
欧阳震诤 ;
罗建书 ;
胡东敏 ;
吴泉源 .
电子学报, 2010, 38 (01) :184-189
[10]
基于LDA模型的主题分析 [J].
石晶 ;
范猛 ;
李万龙 .
自动化学报, 2009, 35 (12) :1586-1592