基于词表示方法的生物医学命名实体识别

被引:20
作者
李丽双
何红磊
刘珊珊
黄德根
机构
[1] 大连理工大学计算机科学与技术学院
关键词
半监督; 词表示; 聚类; 实体识别;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
生物医学命名实体识别是生物医学信息抽取的前提.目前实体识别大多采用机器学习的方法,依靠人工根据领域知识和经验制定特征,需要反复实验进行相应的特征选择,并且这些特征很少使用深层次的语义信息.为了探究语义信息对命名实体识别的影响,本文尝试在大规模未标注数据上进行训练,自动获得语义信息,得到三种词表示方法:词向量、基于词向量的聚类和布朗聚类.将其作为CRF和SVM的特征进行半监督学习,并在相同条件下进行对比实验.实验结果表明,词表示方法能有效地学习到潜在的语义信息,从而提高现有基于机器学习系统的性能.在未利用词典等任何外部资源的情况下,公共评测语料Bio Creative II GM上的实验结果为:精确率、召回率、F值分别达到91.24%、85.80%、88.44%.
引用
收藏
页码:302 / 307
页数:6
相关论文
共 3 条
[1]  
Boosting performance of gene mention tagging system by hybrid methods[J] . Lishuang Li,Wenting Fan,Degen Huang,Yanzhong Dang,Jing Sun.Journal of Biomedical Informatics . 2011 (1)
[2]  
Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification[J] . Martijn J. Schuemie,Barend Mons,Marc Weeber,Jan A. Kors.Journal of Biomedical Informatics . 2006 (3)
[3]  
Efficient Estimation of Word Representations in Vector Space .2 Mikolov T,Chen K,Corrado G,et al. Proceedings of Workshop at ICLR . 2013