基于信息熵的特征子集选择启发式算法的研究

被引:7
作者
钱国良
舒文豪
陈彬
权光日
机构
[1] 哈尔滨工业大学计算机科学与工程系
关键词
特征子集选择,机器学习,扩张矩阵,信息熵,噪音;
D O I
10.13328/j.cnki.jos.1998.12.007
中图分类号
TP301.6, [];
学科分类号
081202 ;
摘要
特征子集选择问题是机器学习和模式识别中的一个重要问题.最优特征子集选择问题已被证明是NP难题.然而,目前的特征子集选择的启发式算法是基于正反例一致的,没有考虑到实际应用中的噪音数据影响,使得选择一个较好的特征子集非常困难.首先从统计学的角度分析了噪音对特征子集选择的影响,给出含有错误率的一致特征子集概念,然后利用信息熵和拉普拉斯错误估计函数构造了特征子集选择启发式算法EFS(entropybasedfeaturesubsetselection).将该算法应用于两个实际领域的学习问题,并与GFS(greedyfeaturesubsetselection)算法进行了比较.实验结果表明,EFS选择的特征子集更具有代表性,较为有效地解决了实际应用中的噪音影响
引用
收藏
页码:32 / 37
页数:6
相关论文
empty
未找到相关数据