中文军事组织机构名的识别

被引:0
作者
乌兰敖日格乐
机构
[1] 大连理工大学
关键词
军事组织机构名; 命名实体识别; 支持向量机; 条件随机场;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
在军用信息处理中,进行军用命名实体的识别是一项非常重要的基础性工作,它是分析、理解和处理军用信息的前提,其中军事组织机构名扮演着相当重要的角色。能否正确识别出军事组织机构名是军事领域信息检索和信息抽取的关键。本文在对军用文本信息进行深入的研究和分析的基础上,总结出了军事组织机构名的结构特征和上下文信息,实现了一个有效的军事组织机构名识别系统。 根据军事组织机构名的结构特点本文设计了基于双层模型进行军事组织机构名识别的方法。我们将军事组织机构名划分为简单机构名和复杂机构名两种类型,并针对不同的类型采用了不同的识别方法。 首先,利用条件随机场模型(Conditional Random Fields, CRF)在序列标注问题上的优异表现,在低层采用CRF模型进行简单机构名识别能够取得很好的识别效果。 其次,将简单机构名的识别结果从低层传至高层,进行对复杂机构名的辅助识别,之后将合并两层的识别结果。我们针对不同的复杂机构名特点使用不同的方法进行识别:一种是针对复杂军事组织机构名的结构特点,首先采用支持向量机(Support Vector Machine, SVM)判断出现在特征词表中的词是否可能成为机构名的右边界词,如果确定是右边界词,再使用CRF对该词进行前部标注,即寻找机构名的左边界;另一种是首先在建立一个可信度模型的基础上,分别计算特征词的可信度和前部词的可信度,然后将得到的可信度与CRF结合起来进行机器学习获得识别模型,用该模型进行机构名识别。 最后,对军事组织机构名简称进行了研究和分析,因其识别涉及到语义层次,若仅依靠统计方法进行识别,其效果并不理想。本文总结了机构名简称的结构及用词特点,制定了一套规则集加入到识别简称的过程中,进行了简称识别的尝试。 实验结果开式精确率、召回率和F值分别为93.34%,92.28%和93.30%,结果表明用本文所设计的识别模型进行军事组织机构名识别是一种比较理想的方法。
引用
收藏
页数:60
共 22 条
[1]
基于单字提示特征的中文命名实体识别快速算法 [J].
冯元勇 ;
孙乐 ;
李文波 ;
张大鲲 .
中文信息学报, 2008, (01) :104-110
[2]
应用条件随机场进行汉语词法分析研究 [J].
王继曾 ;
罗恒 ;
刘宽 ;
任浩征 .
计算机工程与设计, 2007, (02) :486-488
[3]
基于条件随机场的汉语分词系统 [J].
李双龙 ;
刘群 ;
王成耀 .
微计算机信息, 2006, (28) :178-180
[4]
基于混合统计模型的汉语命名实体识别方法 [J].
张晓艳 ;
王挺 ;
陈火旺 .
计算机工程与科学, 2006, (06) :135-139
[5]
一种基于SVM/RS的中文机构名称自动识别方法 [J].
宇缨 ;
王晓龙 ;
刘秉权 .
电子与信息学报, 2006, (05) :895-900
[6]
采用主动学习策略的组织机构名识别 [J].
冯冲 ;
陈肇雄 ;
黄河燕 .
小型微型计算机系统, 2006, (04) :710-714
[7]
基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报, 2006, (02) :87-94
[8]
一个统计与规则相结合的中文命名实体识别系统 [J].
向晓雯 ;
史晓东 ;
曾华琳 .
计算机应用, 2005, (10) :2404-2406
[9]
用支持向量机进行中文地名识别的研究 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
小型微型计算机系统, 2005, (08) :1416-1419
[10]
基于互信息的中文姓名识别方法 [J].
黄德根 ;
马玉霞 ;
杨元生 .
大连理工大学学报, 2004, (05) :744-748