基于支持向量机的特征选择方法的研究与应用

被引:0
作者
毛勇
机构
[1] 浙江大学
关键词
支持向量机; 参数整定; 遗传算法; 回归特征消除; 特征选择; 模糊决策; 算法加速; 组合分类器; 化工过程故障信息发现与诊断; 生物信息发现与疾病诊断;
D O I
暂无
年度学位
2006
学位类型
博士
导师
摘要
特征选择和提取技术是当前信息领域,尤其是模式识别领域的研究热点之一。随着人工智能、计算机技术的迅速发展和应用领域的不断拓宽,特征选择和提取方法得到了较大的发展,这方面基于统计或机器学习的理论研究成果不断出现,其中的一些已在实际工程应用中显示出巨大的发展潜力。 本文主要讨论基于支持向量机的特征选择方法的理论研究工作及其相关的应用。考虑到特征选择算法应用领域的广泛性,文中选取了化工领域,生物信息领域中的多个不同类型的应用数据集作为算法分析和测试的对象。这些对象的特征所具有的相互关系涵盖了现实当中特征间可能存在的大部分关系,例如不相关、线性相关和非线性相关等。文中以应用的领域为线索,以支持向量机为特征选择算法的基本工具,对这些问题的处理方法加以阐述,并初步解释了所选择的重要特征的物理意义。为了进一步的考察算法的实用性,我们选择以模糊支持向量机为代表的几种决策工具建立诊断系统,对该特征选择算法的性能作出了一个综合性的考察。 本文的主要内容如下: 1) 介绍了特征选择算法发展的各个分支方向及发展态势。对国内外当前的研究成果进行了详尽的分析和阐述,指出了理论研究和实际应用中所存在的困难和一些亟待解决的问题,并提出了一种可供实际应用的解决对策。 2) 目前生物信息癌症诊断数据集中普遍存在高维度、小样本情况。在这些数据集上,传统的基于统计的和基于线性分类器的特征选择方法难以奏效,本文提出了一种基于遗传算法和非线性核支持向量机的特征选择方法。用遗传算法来确定进行特征选择操作的非线性核支持向量机的核参数和惩罚参数。实验中的各项参数表明,所提出的算法在性能上要优于基于统计的和基于线性分类器的特征选择方法,且所选择的特征具有较为明显的生物意义。 3) 基于遗传算法和非线性支持向量机的特征选择算法虽然能够在一定程度上取得较为满意的效果,但是它的运算效率较低,还不能满足实际应
引用
收藏
页数:129
共 33 条
[1]
生物芯片技术.[M].邢婉丽;程京著;.清华大学出版社.2004,
[2]
生物芯片.[M].马立人;蒋中华主编;.化学工业出版社.2002,
[3]
数据分析.[M].范金城;梅长林编著;.科学出版社.2002,
[4]
智能优化算法及其应用.[M].王凌著;.清华大学出版社.2001,
[5]
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,
[6]
现代故障诊断与容错控制.[M].周东华;叶银忠著;.清华大学出版社.2000,
[7]
最优化理论与方法.[M].袁亚湘;孙文瑜著;.科学出版社.1997,
[8]
控制系统的故障检测与诊断技术.[M].周东华;孙优贤著;.清华大学出版社.1994,
[9]
SELDI-TOF-based serum proteomic pattern diagnostics for early detection of cancer [J].
Petricoin, EF ;
Liotta, LA .
CURRENT OPINION IN BIOTECHNOLOGY, 2004, 15 (01) :24-30
[10]
Proteomics and cancer diagnosis: the potential of mass spectrometry [J].
Rodland, KD .
CLINICAL BIOCHEMISTRY, 2004, 37 (07) :579-583