随机森林的特征选择和模型优化算法研究

被引:0
作者
雍凯
机构
[1] 哈尔滨工业大学
关键词
集成学习; 随机森林; 特征选择; 模型聚类;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
集成学习的兴起,为分类方法的设计提供了一个新的研究方向。随机森林是在众多集成方法中逐渐发展起来的一种分类器集成学习的方法,在实际中得到广泛应用,成为数据挖掘、人工智能、机器学习、模式识别等领域的研究人员以及工程应用领域中的技术人员共同关心的一个研究热点。 随机森林在降低分类系统泛化误差、简化分类器设计等方面表现优良,但是随机森林方法并不完美,从实际应用中看,还有着大量进一步提升精度,降低泛化误差的需求。 本文在介绍集成学习和随机森林的研究现状、算法思想的基础上,重点分析了随机森林的优缺点,并提出了一些改进的方案,进行了大量的实验分析,完成了以下研究工作: (1)在分析了随机森林集成的强度和相关度之间的关系的基础上,提出了一种新的特征选择算法。为了降低随机森林的泛化误差上界,提高森林整体性能,在综合考虑强度和相关度之间相互影响的关系后,利用卡方检验进行特征的相关性评估,依据评估的结果在特征空间进行有区分的随机选择特征。经实验验证,这种方法在保留原始算法所有的优点的基础上,可以进一步的降低随机森林的误差上界,提高泛化精度; (2)在理解单个分类树与集成的整体效果之间的关系后,进一步对分类树之间关系进行了分析,设计了一种基于层次聚类的模型选择算法。通过将符合度量标准的分类树不断凝聚在一起,再从中寻求代表树进行参与森林的集成。提出了树与树之间的相似性度量,并在实验中使用多种度量比较分析,该模型选择算法可以提高树与树之间的差异度,利用较少的树就可以提高森林的分类精度; (3)在对随机森林的特征选择和模型选择进行一定的研究后,对进一步研究提出了一些需要进一步研究的方向,对今后随机森林的研究具有一定的指导意义。
引用
收藏
页数:71
共 24 条
[1]
集成分类器模型的研究 [D]. 
周峰 .
上海交通大学,
2007
[2]
基于层次分类和集成学习的文本分类技术研究 [D]. 
张华伟 .
江西师范大学,
2007
[3]
集成学习算法研究 [D]. 
王丽丽 .
广西大学,
2006
[4]
基于编辑距离的XML文档结构聚类的改进算法 [J].
龚安 ;
刘华山 .
微计算机应用, 2008, (02) :88-91
[5]
基于树编辑距离的层次聚类算法 [J].
乔少杰 ;
唐常杰 ;
陈瑜 ;
彭京 ;
温粉莲 .
计算机科学与探索, 2007, (03) :282-292
[6]
聚类集成中的差异性度量研究 [J].
罗会兰 ;
孔繁胜 ;
李一啸 .
计算机学报, 2007, (08) :1315-1324
[7]
集成学习中完全随机学习策略研究 [J].
俞扬 ;
周志华 .
计算机工程, 2006, (17) :100-102+152
[8]
基于改进的随机森林算法的入侵检测模型(英文) [J].
郭山清 ;
高丛 ;
姚建 ;
谢立 .
软件学报, 2005, (08) :1490-1498
[9]
层次化中文文档分类 [J].
袁时金 ;
李荣陆 ;
周水庚 ;
胡运发 .
通信学报, 2004, (11) :55-63
[10]
基于决策森林特征基因的两种识别方法 [J].
吕飒丽 ;
汪强虎 ;
李霞 ;
郭政 .
生物信息学, 2004, (03) :19-22