蛋白质中RNA-结合残基预测的随机森林模型

被引:11
作者
马昕 [1 ,2 ]
郭静 [1 ]
孙啸 [1 ]
机构
[1] 东南大学生物电子学国家重点实验室
[2] 南京审计学院金审学院
关键词
随机森林; 位置特异性矩阵; 嵌套式交叉验证; RNA-结合残基;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
构建了用于预测蛋白质序列中RNA-结合残基的分类模型.在模型的特征提取方面,除了与功能相关的结构特征和序列正交编码信息以外,还提出了一个新颖的特征PSSM-PP.该特征不仅包含蛋白质序列的进化保守特征,还包含与蛋白质和RNA结合有关的氨基酸理化特征.在设计模型时,考虑到样本数据量大的问题,选用了快速的随机森林算法.该预测模型总体预测准确率达到87.02%,特异性达到95.62%,敏感性达51.16%,Matthew相关系数为0.533 6.此外,还构建了RNA结合残基的预测平台.
引用
收藏
页码:50 / 54
页数:5
相关论文
共 2 条
[1]   Random forests [J].
Breiman, L .
MACHINE LEARNING, 2001, 45 (01) :5-32
[2]  
BindN:a web-based tool for ef-ficient prediction of DNA and RNA binding sites inamino acid sequences .2 Wang L,Brown S J. Nucleic Acids Res . 2006