生物医学命名实体识别研究

被引:0
作者
郑强
机构
[1] 国防科学技术大学
关键词
命名实体识别; 特征选择; 机器学习; 条件随机域; 后期处理;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
当前,生物医学文献数量巨大并持续呈现指数级增长,直接、高效地获取文献中有用信息的需求正变得越来越迫切。命名实体识别用来识别文本中具有特定意义的实体,是应用文本挖掘技术自动获取知识的关键的第一步,因此受到日益广泛的关注。生物医学领域的命名实体有别于其它领域中的命名实体,这使得命名实体识别技术在生物医学领域的研究仍处在基础阶段。 命名实体识别技术主要包括三个步骤:特征选择、分类方法和后期处理。本文主要围绕此三个步骤展开研究,并取得了一系列创新性的成果。 首先,本文综合现有成果构建了丰富的特征集合。为选取合适的特征集合,通过分析多种特征选择算法的优点和缺点,从中选取三种算法用来搜索最优特征集合,结果表明最优特征集合能更有效地表示命名实体的特征,证明了特征选择是必要的和有效的。为提高特征的表征能力,针对生物医学领域命名实体的特点,本文提出了动词触发特征和词性序列特征。使用GENIA语料库作测试,实验证明本文构建的特征集合使系统性能达到了77.60%,优于当前最好的系统的性能。其次,本文介绍了几种机器学习方法以及条件随机域方法的实现。在后期处理过程中,本文针对前期结果错误的类型,提出多种修正规则,实验证明,修正后的系统性能达到79.05%,说明修正规则是有效的。 最后,本文从语料库和标注类型方面对系统进行改进,提出了词形还原和标注转换两种策略。实验结果表明,系统性能达到了我们预期的目标。 行文结束之际,本文对命名实体识别这一研究领域的广阔前景进行了展望。
引用
收藏
页数:86
共 5 条
[1]
Biomedical named entity recognition using two-phase model based on SVMs [J].
Lee, KJ ;
Hwang, YS ;
Kim, S ;
Rim, HC .
JOURNAL OF BIOMEDICAL INFORMATICS, 2004, 37 (06) :436-447
[2]
A tutorial on Support Vector Machines for pattern recognition [J].
Burges, CJC .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (02) :121-167
[3]
Wrappers for feature subset selection.[J].Ron Kohavi;George H. John.Artificial Intelligence.1997, 1
[4]
SUPPORT-VECTOR NETWORKS [J].
CORTES, C ;
VAPNIK, V .
MACHINE LEARNING, 1995, 20 (03) :273-297
[5]
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,