当前,生物医学文献数量巨大并持续呈现指数级增长,直接、高效地获取文献中有用信息的需求正变得越来越迫切。命名实体识别用来识别文本中具有特定意义的实体,是应用文本挖掘技术自动获取知识的关键的第一步,因此受到日益广泛的关注。生物医学领域的命名实体有别于其它领域中的命名实体,这使得命名实体识别技术在生物医学领域的研究仍处在基础阶段。
命名实体识别技术主要包括三个步骤:特征选择、分类方法和后期处理。本文主要围绕此三个步骤展开研究,并取得了一系列创新性的成果。
首先,本文综合现有成果构建了丰富的特征集合。为选取合适的特征集合,通过分析多种特征选择算法的优点和缺点,从中选取三种算法用来搜索最优特征集合,结果表明最优特征集合能更有效地表示命名实体的特征,证明了特征选择是必要的和有效的。为提高特征的表征能力,针对生物医学领域命名实体的特点,本文提出了动词触发特征和词性序列特征。使用GENIA语料库作测试,实验证明本文构建的特征集合使系统性能达到了77.60%,优于当前最好的系统的性能。其次,本文介绍了几种机器学习方法以及条件随机域方法的实现。在后期处理过程中,本文针对前期结果错误的类型,提出多种修正规则,实验证明,修正后的系统性能达到79.05%,说明修正规则是有效的。
最后,本文从语料库和标注类型方面对系统进行改进,提出了词形还原和标注转换两种策略。实验结果表明,系统性能达到了我们预期的目标。
行文结束之际,本文对命名实体识别这一研究领域的广阔前景进行了展望。