中文组织机构名的识别是中文信息处理中的一个重要任务,也是命名实体识别(Named Entity Recognition)研究的重点之一。命名实体包括人名、地名、机构名、时间短语等,组织机构名是其中非常重要的一部分,其识别的难度也是所有命名实体中最大的。包括机构名在内的命名实体的识别是许多自然语言处理任务,如信息抽取、机器翻译、信息检索等的基础,具有十分重要的意义。
统计方法是自然语言处理中最重要的方法之一。在统计学习理论的基础上发展起来支持向量机是一种新的通用学习方法。基于结构风险最小化原则的支持向量机在许多研究问题中,特别是样本集有限的情况下,表现出了优于其它机器学习方法的性能。目前,支持向量机已经应用于自然语言处理的许多领域,如文本分类,浅层句法分析,专名识别等,都取得了不错的效果。
本文提出了一种支持向量机结合主动学习策略进行中文机构名识别的方法:用支持向量机对切分标注过语料中的中文机构名进行识别,并在样本选择和模型训练时,结合了主动学习的策略。我们在大规模的真实文本中对该方法进行了多组开放性测试实验,实验中我们比较了不同特征选择,以及不同的样本选择策略对结果的影响。实验的结果表明,基于支持向量机的方法取得了很好的结果:正确率,召回率和F值分别达到了81.68%,86.84%,84.18%。实验也表明主动学习的策略能有效地减少训练样本的数量,从而减少了人工标注成本。最终,我们在该方法的基础上实现了一个机构名识别的实验系统。