基于词典与机器学习的基因命名实体识别机制研究

被引:0
作者
夏光辉
机构
[1] 北京协和医学院
关键词
基因命名实体; 命名实体识别; 词典; 机器学习; 条件随机域;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
基因命名实体识别是在分子生物学及医学领域对基因、RNA、DNA蛋白质等专业词汇进行识别和分类。海量的生物医学文献为挖掘文本中的隐含知识提供了条件,为了得到基因、蛋白质等命名实体之间的关联关系,首先要在文献中识别基因、蛋白质等命名实体,因此基因命名实体识别是知识关系抽取、知识关系计算等文本挖掘技术的基础。 基于词典的命名实体识别方法简单实用,很容易在应用系统中部署使用,但是识别效果受限于词典的规模与质量。基于机器学习的命名实体识别方法不仅可以识别出训练语料中已标注的基因命名实体,而且可以较好的识别出新出现的基因命名实体,但是识别效果取决于语料库的质量和数量,因此目前还处于试验探索阶段。为了充分利用基于词典方法在实用性方面的优势以及机器学习方法在识别新命名实体方面的优势,本文提出了基于词典和机器学习相结合的基因命名实体识别方法,并在以下几个方面进行了探索和研究。 首先,本文以UMLS作为术语来源,通过UMLS的语义类型获取基因领域术语,并将基因术语按照实体语料的格式进行转换,构建基因实体词典。 其次,总结了已有研究中基因命名实体特征的构建方法,并创造性的提出了词典特征的构建方法,最终本文基于词典和语料构建了15类基因命名实体特征。 再次,本文基于GENIA3.02语料以及开源的实体识别工具CRF++,构建了词典与机器学习相结合的基因命名实体识别模型,并进行了大量有针对性的实验和测试。实验结果表明,与基于机器学习的实体识别方法相比,本文提出的词典与机器学习相结合的方案,在获得较高的实体识别性能的同时,能够有效的降低实体识别的时间复杂度。 最后,基于实验结果和数据分析,本文提出了基于词典和机器学习的基因命名实体识别机制,对实验结果进行了讨论并提出了下一步研究建议。
引用
收藏
页数:77
共 11 条
[2]
多类支持向量机分类算法—DDAG [J].
汪政 ;
邵良杉 .
计算机系统应用, 2010, 19 (07) :87-90
[3]
生物医学命名实体识别的研究与进展 [J].
郑强 ;
刘齐军 ;
王正华 ;
朱云平 .
计算机应用研究, 2010, 27 (03) :811-815+832
[4]
几种基于机器学习的生物命名实体识别模型比较.[J].邱莎;.电脑知识与技术(学术交流).2007, 05
[5]
Exploiting the performance of dictionary-based bio-entity name recognition in biomedical literature [J].
Yang, Zhihao ;
Lin, Hongfei ;
Li, Yanpeng .
COMPUTATIONAL BIOLOGY AND CHEMISTRY, 2008, 32 (04) :287-291
[6]
Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification.[J].Martijn J. Schuemie;Barend Mons;Marc Weeber;Jan A. Kors.Journal of Biomedical Informatics.2006, 3
[7]
Integrating linguistic knowledge into a conditional random fieldframework to identify biomedical named entities.[J].Tzong-han Tsai;Wen-Chi Chou;Shih-Hung Wu;Ting-Yi Sung;Jieh Hsiang;Wen-Lian Hsu.Expert Systems With Applications.2005, 1
[8]
Improving the performance of dictionary-based approaches in protein name recognition [J].
Tsuruoka, Y ;
Tsujii, J .
JOURNAL OF BIOMEDICAL INFORMATICS, 2004, 37 (06) :461-470
[9]
词典和机器学习相结合的生物命名实体识别 [D]. 
王琦 .
大连理工大学,
2009
[10]
生物医学文献中命名实体的识别 [D]. 
周荣鹏 .
大连理工大学,
2009