基于条件随机场的蒙古语词性标注方法

被引:9
作者
应玉龙 [1 ,2 ]
李淼 [1 ]
乌达巴拉 [1 ]
朱海 [1 ,2 ]
机构
[1] 中国科学院合肥智能机械研究所
[2] 中国科学技术大学自动化系
关键词
词干; 词缀; 条件随机场; 词性标注; 词素;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为了保留蒙古语词缀中大量的语法、语义信息和缩小蒙古语词典的规模,蒙古语词性标注需要对词干和词缀都进行词性标注。针对这一问题提出了一种基于条件随机场(CRF)的蒙古语词性标注方法。该方法利用CRF模型能够添加任意特征的特点,充分使用蒙文上下文信息,针对词素之间的相互影响添加了新的统计特征,并在3.8万句的蒙古语词性标注语料上进行了封闭测试,该方法的标注准确率达到了96.65%,优于使用隐马尔可夫模型(HMM)的词性标注模型。
引用
收藏
页码:2038 / 2040
页数:3
相关论文
共 2 条
[1]  
蒙古语语言资源库建设相关技术研究.[D].图格木勒.内蒙古大学.2007, 06
[2]  
汉蒙词语对齐及相关技术研究.[D].雪艳.内蒙古大学.2009, 04