基于IV属性选择的随机森林模型研究

被引：0

作者：

杨秋洁

机构：

[1] 合肥工业大学

关键词：

属性选择; IV指标; 随机森林; 数据挖掘;

D O I：

暂无

年度学位：

2010

学位类型：

硕士

导师：

胡学钢;

摘要：

随着信息技术的迅速发展,众多应用领域如银行金融业、电子商务、生物信息、网络安全等产生了爆炸式的信息。不仅在数据规模上具有高维、海量的特征,在信息内容上还具有冗余多、噪音多的特点。这样的数据给挖掘技术带来了巨大的挑战,尤其是处理数据流等问题时,模型的实时性无法保障,使得更注重训练数据质量的分类模型训练周期变长,精度下降。因此,如何有效的减小数据规模,提高数据质量对提高分类模型的性能有着重要意义。本文针对属性选择及分类问题开展了以下工作的研究: (1)针对数据挖掘所面临的挑战,分析了有效缩减数据规模是重要的可行方法,并在此基础上概述了各类经典属性选择方法,探讨了它们的特点与不足。 (2)针对已有属性选择方法在处理高维、海量数据时,时空性能与效果上的不足,分析了将WoE与IV指标引入属性选择的可行性及存在的问题,在解决这些问题的基础上提出了基于IV指标的属性选择方法FS-IV,实验表明该算法是有效的,与经典属性选择方法相比时空性能有明显优势,并具有一定的抗噪性。 (3)针对属性选择后数据集出现的数据量大幅减少、优势属性集中可能会导致的过拟合等问题,分析了解决手段,将FS-IV方法与随机森林模型结合,提出了基于IV指标的随机森林模型,实验表明该模型与C4.5,朴素贝叶斯及经过FS-IV约简的C4.5与朴素贝叶斯模型相比,在不损失精度的情况下,时间性能大幅提升。 (4)根据高维、海量、流数据等实际问题,对FS-IV及IV-RF模型做了适应性改进,实验表明它们对高维、海量数据有着很好的处理效果。

引用

页数：58

共 12 条

[1]

无指导学习环境下属性选择问题应用研究 [D].

朱佳贤 .

上海财经大学,

2005

[2]

Support vector machines based on K-means clustering for real-time business intelligence systems.[J].Jiaqi Wang; Xindong Wu; Chengqi Zhang.Int. J. of Business Intelligence and Data Mining.2005, 1

[3]

Feature selection for classification.[J].M. Dash;H. Liu.Intelligent Data Analysis.1997, 1

[4]

Wrappers for feature subset selection.[J].Ron Kohavi;George H. John.Artificial Intelligence.1997, 1

[5]

ROUGH SETS [J].