面向情报大数据的决策树增量学习算法研究

被引:0
作者
孙静
机构
[1] 哈尔滨工程大学
关键词
分类; 数据挖掘; 决策树; 增量学习;
D O I
暂无
年度学位
2017
学位类型
硕士
导师
摘要
由于具有易于理解的优势,决策树成为最流行的分类方法之一。然而,利用已经存在的方法构建的决策树一般都会过于庞大、复杂化,因此在实际应用中实用性受到限制。此外,当今社会数据通常都是不断增加的,如果使用传统的决策树算法,即新增一批样本之后,将历史数据和新增数据再放在一起重新学习一遍,这种方式会把以前的知识遗忘掉,使得之前学习到的决策树没有任何意义。因此,这时候增量学习就变得尤为重要,即利用新增样本对以前学习到的决策树进行更新调整。在深入研究决策树方法和增量学习方法的基础上,本文提出一个新的决策树算法NOLCDT。在分裂结点之前,NOLCDT算法把结点中每个候选属性的多个属性值分别合并成两组,选择信息增益最大的候选属性将结点分为两个分支,这种方式可以避免生成太多的分支,进而防止决策树过于庞大。NOLCDT算法在选择下一个将要分裂的结点方面也有所改进,该算法为所有候选分裂结点计算对应的结点分裂度量值,并且总是选择结点分裂度量值最大的候选结点作为下一个分裂结点,使得每次分裂都有最大的信息增益。此外,本文在决策树增量学习算法ID5R的基础上,提出一种改进算法IID5R,IID5R增加了评估分类属性质量的功能,且推导出分类属性被候选属性替代的最小样本数的计算公式。将NOLCDT与IID5R相结合,提出了一个混合分类器算法HCS,HCS算法主要有两个阶段组成:构建初始决策树和增量学习。根据NOLCDT建立初始决策树,然后使用IID5R进行增量学习。HCS算法综合了决策树以及增量学习方法的优点,既便于理解又适于增量学习。选用UCI数据库中的数据集作为实验的数据来源,将传统的决策树算法与本文提出的混合分类器算法进行实验对比,结果表明HCS可以很好的解决增量问题,构建的决策树更简单便于理解,增量阶段消耗的时间减少。
引用
收藏
页数:63
共 35 条
[1]
基于信息熵的决策树UE提升研究 [J].
黄轶文 ;
卢世军 .
计算机与数字工程, 2016, 44 (05) :878-883
[2]
基于增量式决策树的时间序列分类算法研究 [J].
王树英 ;
王志海 .
现代计算机(专业版), 2015, (08) :26-30
[3]
基于改进型C4.5算法的关系数据库零水印模型研究 [J].
周钢 ;
吴克明 .
计算机应用与软件, 2015, 32 (01) :64-67
[4]
基于多光谱影像和专家决策法的作物分类研究(英文) [J].
刘磊 ;
江东 ;
徐敏 ;
尹芳 .
AgriculturalScience&Technology, 2011, 12 (11) :1703-1706+1710
[5]
增量决策树知识获取 [J].
李明哲 ;
叶春明 .
电脑知识与技术, 2009, 5 (23) :6514-6516
[6]
贝叶斯分类器集成的增量学习方法 [J].
张全新 ;
郑建军 ;
牛振东 ;
原达 .
北京理工大学学报, 2008, (05) :397-400
[7]
基于最大熵选取示例的增量决策树归纳 [J].
闫建辉 ;
王熙照 ;
隋春荣 ;
王硕 ;
苑俊英 .
计算机工程与应用, 2006, (35) :160-162+187
[8]
增量机器学习算法研究.[D].胡蓉.南京理工大学.2013, 07
[9]
增量学习及其在图像识别中的应用 [D]. 
李敬 .
上海交通大学,
2008
[10]
Decision analysis under ambiguity [J].
Borgonovo, Emanuele ;
Marinacci, Massimo .
EUROPEAN JOURNAL OF OPERATIONAL RESEARCH, 2015, 244 (03) :823-836