基于IV属性选择的随机森林模型研究

被引:0
作者
杨秋洁
机构
[1] 合肥工业大学
关键词
属性选择; IV指标; 随机森林; 数据挖掘;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
随着信息技术的迅速发展,众多应用领域如银行金融业、电子商务、生物信息、网络安全等产生了爆炸式的信息。不仅在数据规模上具有高维、海量的特征,在信息内容上还具有冗余多、噪音多的特点。这样的数据给挖掘技术带来了巨大的挑战,尤其是处理数据流等问题时,模型的实时性无法保障,使得更注重训练数据质量的分类模型训练周期变长,精度下降。因此,如何有效的减小数据规模,提高数据质量对提高分类模型的性能有着重要意义。 本文针对属性选择及分类问题开展了以下工作的研究: (1)针对数据挖掘所面临的挑战,分析了有效缩减数据规模是重要的可行方法,并在此基础上概述了各类经典属性选择方法,探讨了它们的特点与不足。 (2)针对已有属性选择方法在处理高维、海量数据时,时空性能与效果上的不足,分析了将WoE与IV指标引入属性选择的可行性及存在的问题,在解决这些问题的基础上提出了基于IV指标的属性选择方法FS-IV,实验表明该算法是有效的,与经典属性选择方法相比时空性能有明显优势,并具有一定的抗噪性。 (3)针对属性选择后数据集出现的数据量大幅减少、优势属性集中可能会导致的过拟合等问题,分析了解决手段,将FS-IV方法与随机森林模型结合,提出了基于IV指标的随机森林模型,实验表明该模型与C4.5,朴素贝叶斯及经过FS-IV约简的C4.5与朴素贝叶斯模型相比,在不损失精度的情况下,时间性能大幅提升。 (4)根据高维、海量、流数据等实际问题,对FS-IV及IV-RF模型做了适应性改进,实验表明它们对高维、海量数据有着很好的处理效果。
引用
收藏
页数:58
共 12 条
[1]
无指导学习环境下属性选择问题应用研究 [D]. 
朱佳贤 .
上海财经大学,
2005
[2]
Support vector machines based on K-means clustering for real-time business intelligence systems.[J].Jiaqi Wang; Xindong Wu; Chengqi Zhang.Int. J. of Business Intelligence and Data Mining.2005, 1
[3]
Feature selection for classification.[J].M. Dash;H. Liu.Intelligent Data Analysis.1997, 1
[4]
Wrappers for feature subset selection.[J].Ron Kohavi;George H. John.Artificial Intelligence.1997, 1
[5]
ROUGH SETS [J].
PAWLAK, Z ;
GRZYMALABUSSE, J ;
SLOWINSKI, R ;
ZIARKO, W .
COMMUNICATIONS OF THE ACM, 1995, 38 (11) :89-95
[6]
VERY SIMPLE CLASSIFICATION RULES PERFORM WELL ON MOST COMMONLY USED DATASETS [J].
HOLTE, RC .
MACHINE LEARNING, 1993, 11 (01) :63-91
[7]
Hash快速属性约简算法 [J].
刘勇 ;
熊蓉 ;
褚健 .
计算机学报, 2009, 32 (08) :1493-1499
[8]
基于分形维数和蚁群算法的属性选择方法 [J].
倪丽萍 ;
倪志伟 ;
吴昊 ;
叶红云 .
模式识别与人工智能, 2009, 22 (02) :293-298
[9]
基于属性重要度的随机决策树学习算法 [J].
胡学钢 ;
李楠 .
合肥工业大学学报(自然科学版), 2007, (06) :681-685
[10]
一种适用于IDS的多次模糊迭代特征选择算法 [J].
李玲娟 ;
周桂芳 ;
王汝传 .
计算机科学, 2007, (04) :79-82