一种面向高维数据的均分式Lasso特征选择方法

被引:24
作者
施万锋
胡学钢
俞奎
机构
[1] 合肥工业大学计算机与信息学院
关键词
Lasso; 特征选择; 均分式Lasso;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
Lasso是一种基于一范式的特征选择方法。与已有的特征选择方法相比较,Lasso不仅能够准确地选择出与类标签强相关的变量,同时还具有特征选择的稳定性,因而成为人们研究的一个热点。但是,Lasso方法与其他特征选择方法一样,在高维海量或高维小样本数据集的特征选择容易出现计算开销过大或过学习问题(过拟和)。为解决此问题,提出一种改进的Lasso方法:均分式Lasso方法。均分式Lasso方法将特征集均分成K份,对每份特征子集进行特征选择,将每份所选的特征进行合并,再进行一次特征选择。实验表明,均分式Lasso方法能够很好地对高维海量或高维小样本数据集进行特征选择,是一种有效的特征选择方法。
引用
收藏
页码:157 / 161
页数:5
相关论文
共 8 条
[1]   一种新的海量数据分类方法 [J].
任力安 ;
何清 ;
史忠植 .
计算机工程与应用, 2002, (14) :58-60
[2]  
基于信息理论的特征选择算法研究[D]. 陆景辉.北京交通大学. 2007
[3]  
Forward stagewise regression and the monotone lasso[J] . Trevor Hastie,Jonathan Taylor,Robert Tibshirani,Guenther Walther.Electronic Journal of Statistics . 2007
[4]  
Regularization and variable selection via the elastic net[J] . HuiZou,TrevorHastie.Journal of the Royal Statistical Society: Series B (Statistical Methodology) . 2005 (2)
[5]   A feature selection Newton method for support vector machine classification [J].
Fung, GM ;
Mangasarian, OL .
COMPUTATIONAL OPTIMIZATION AND APPLICATIONS, 2004, 28 (02) :185-202
[6]   Gene Selection for Cancer Classification using Support Vector Machines [J].
Isabelle Guyon ;
Jason Weston ;
Stephen Barnhill ;
Vladimir Vapnik .
Machine Learning, 2002, 46 :389-422
[7]  
Wrappers for feature subset selection[J] . Ron Kohavi,George H. John.Artificial Intelligence . 1997 (1)
[8]   MULTIVARIATE ADAPTIVE REGRESSION SPLINES [J].
FRIEDMAN, JH .
ANNALS OF STATISTICS, 1991, 19 (01) :1-67