类别不平衡的分类方法及在生物信息学中的应用

被引:26
作者
邹权
郭茂祖
刘扬
王峻
机构
[1] 哈尔滨工业大学计算机科学与技术学院
基金
黑龙江省自然科学基金;
关键词
生物信息学; 类别不平衡; 非编码RNA识别; SNP位点鉴别; 分类;
D O I
暂无
中图分类号
Q811.4 [生物信息论]; TP18 [人工智能理论];
学科分类号
0711 ; 0831 ; 081104 ; 0812 ; 0835 ; 1405 ;
摘要
提出一种处理正反例不平衡的分类方法,以解决生物信息学中的snoRNA识别、microRNA前体判别、SNP位点的真伪识别等问题.利用集成学习的思想,将反例集均匀分割并依次与正例集组合,得到一组类别平衡的训练集.然后对每个训练集采用不同原理的分类器进行训练,最后投票表决待测样本.为了避免弱分类器影响投票效果,结合AdaBoost思想,将每个分类器训练中产生的错误样本加入到下2个分类器的训练集中,既避免了AdaBoost的反复训练,又有效地利用投票机制遏制了弱分类器的影响.5组UCI测试数据和3组生物信息学实验证明了它在处理类别不平衡分类问题时的优越性.
引用
收藏
页码:1407 / 1414
页数:8
相关论文
共 5 条
[1]   一种基于混合策略的失衡数据集分类方法 [J].
李鹏 ;
王晓龙 ;
刘远超 ;
王宝勋 .
电子学报, 2007, (11) :2161-2165
[2]   考虑样本不平衡的模型无关的基因选择方法 [J].
李建中 ;
杨昆 ;
高宏 ;
骆吉洲 ;
郭政 .
软件学报, 2006, (07) :1485-1493
[3]   一种基于级联模型的类别不平衡数据分类方法 [J].
刘胥影 ;
吴建鑫 ;
周志华 .
南京大学学报(自然科学版), 2006, (02) :148-155
[4]  
Machine Learning for the Detection of Oil Spills in Satellite Radar Images[J] . Miroslav Kubat,Robert C. Holte,Stan Matwin.Machine Learning . 1998 (2)
[5]  
SMOTE: Synthetic minority over- sampling technique .2 Chawla NV,Bowyer KW,Hall LO,Kegelmeyer WP. Journal of Artificial Intelligence Research . 2002