在军用信息处理中,进行军用命名实体的识别是一项非常重要的基础性工作,它是分析、理解和处理军用信息的前提,其中军事组织机构名扮演着相当重要的角色。能否正确识别出军事组织机构名是军事领域信息检索和信息抽取的关键。本文在对军用文本信息进行深入的研究和分析的基础上,总结出了军事组织机构名的结构特征和上下文信息,实现了一个有效的军事组织机构名识别系统。
根据军事组织机构名的结构特点本文设计了基于双层模型进行军事组织机构名识别的方法。我们将军事组织机构名划分为简单机构名和复杂机构名两种类型,并针对不同的类型采用了不同的识别方法。
首先,利用条件随机场模型(Conditional Random Fields, CRF)在序列标注问题上的优异表现,在低层采用CRF模型进行简单机构名识别能够取得很好的识别效果。
其次,将简单机构名的识别结果从低层传至高层,进行对复杂机构名的辅助识别,之后将合并两层的识别结果。我们针对不同的复杂机构名特点使用不同的方法进行识别:一种是针对复杂军事组织机构名的结构特点,首先采用支持向量机(Support Vector Machine, SVM)判断出现在特征词表中的词是否可能成为机构名的右边界词,如果确定是右边界词,再使用CRF对该词进行前部标注,即寻找机构名的左边界;另一种是首先在建立一个可信度模型的基础上,分别计算特征词的可信度和前部词的可信度,然后将得到的可信度与CRF结合起来进行机器学习获得识别模型,用该模型进行机构名识别。
最后,对军事组织机构名简称进行了研究和分析,因其识别涉及到语义层次,若仅依靠统计方法进行识别,其效果并不理想。本文总结了机构名简称的结构及用词特点,制定了一套规则集加入到识别简称的过程中,进行了简称识别的尝试。
实验结果开式精确率、召回率和F值分别为93.34%,92.28%和93.30%,结果表明用本文所设计的识别模型进行军事组织机构名识别是一种比较理想的方法。