结合多种特征的CRF模型用于化学物质–疾病命名实体识别

被引:20
作者
隋明爽
崔雷
机构
[1] 中国医科大学医学信息学院
关键词
命名实体识别; 条件随机场; 文本挖掘; 无监督学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
【目的】建立结合多种特征的条件随机场模型,探索从大型生物医学文本中同时自动提取化学物质和疾病实体的方法。【方法】结合命名实体识别特征,包括词法特征、领域知识特征、词典匹配特征和无监督学习特征等,比较不同特征对命名实体识别的效果,并优化模型。【结果】CRF模型纳入词法特征、词典匹配特征、无监督学习特征和部分领域知识特征,化学物质识别准确率97.33%、召回率80.76%、F值88.27%,疾病实体识别准确率为84.20%、召回率为81.96%、F值为83.07%。【局限】同时识别化学物质和疾病实体可能存在互相干扰,删除的部分领域特征可能含有有用信息。【结论】本研究可为生物医学命名实体识别的特征选择提供参考,同时仍需优化特征以获得更好的识别效果。
引用
收藏
页码:91 / 97
页数:7
相关论文
共 8 条
[1]
基于模板抽取和丰富特征的药名词典生成.[A].徐博;林鸿飞;杨志豪;.第五届全国信息检索学术会议.2009,
[2]
用文本挖掘方法发现药物的副作用 [J].
隋明爽 ;
崔雷 .
中华医学图书情报杂志, 2015, (11) :67-72
[3]
基于特征耦合泛化的药名实体识别 [J].
何林娜 ;
杨志豪 ;
林鸿飞 ;
李彦鹏 ;
唐利娟 .
中文信息学报, 2014, (02) :72-77
[4]
基于词表示方法的生物医学命名实体识别 [D]. 
何红磊 .
大连理工大学,
2015
[5]
基于词典与机器学习的基因命名实体识别机制研究 [D]. 
夏光辉 .
北京协和医学院,
2013
[6]
NCBI disease corpus: A resource for disease name recognition and concept normalization.[J].Rezarta Islamaj Doğan;Robert Leaman;Zhiyong Lu.Journal of Biomedical Informatics.2014,
[7]
DNorm: disease name normalization with pairwise learning to rank [J].
Leaman, Robert ;
Dogan, Rezarta Islamaj ;
Lu, Zhiyong .
BIOINFORMATICS, 2013, 29 (22) :2909-2917
[8]
Term identification in the biomedical literature [J].
Krauthammer, M ;
Nenadic, G .
JOURNAL OF BIOMEDICAL INFORMATICS, 2004, 37 (06) :512-526