基于上下文环境和句法分析的蛋白质关系抽取

被引:9
作者
王健
冀明辉
林鸿飞
杨志豪
机构
[1] 大连理工大学计算机科学与技术学院
基金
高等学校博士学科点专项科研基金; 教育部留学回国人员科研启动基金;
关键词
信息抽取; 自然语言处理; 蛋白质关系抽取; 特征; 支持向量机;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对蛋白质交互作用关系(PPI)抽取方法中特征利用的片面性问题,提出了一种从上下文环境和句法结构中抽取特征的方法。该方法抽取词法特征、位置特征、距离特征、依存句法特征和深层句法特征等丰富特征构成特征集,并且使用支持向量机(SVM)分类器进行PPI抽取。方法在5个公开的PPI语料上进行了评估。实验结果表明,丰富特征有效地利用了更为全面的信息,避免丢失重要特征的危险,得到了较好的PPI抽取性能。即在AImed语料上的实验取得了59.2%的F值和85.6%的曲线下面积(AUC)值。
引用
收藏
页码:1074 / 1077
页数:4
相关论文
共 2 条
[1]
Protein–protein interaction extraction by leveraging multiple kernels and parsers.[J]..International Journal of Medical Informatics.2009, 12
[2]
MINT: a Molecular INTeraction database [J].
Zanzoni, A ;
Montecchi-Palazzi, L ;
Quondam, M ;
Ausiello, G ;
Helmer-Citterich, M ;
Cesareni, G .
FEBS LETTERS, 2002, 513 (01) :135-140