基于条件随机场的藏文人名识别技术研究

被引:15
作者
珠杰 [1 ,2 ]
李天瑞 [1 ]
刘胜久 [1 ]
机构
[1] 西南交通大学信息科学与技术学院
[2] 西藏大学计算机科学系
关键词
藏文人名; 条件随机场(CRF); 特征选择;
D O I
10.13232/j.cnki.jnju.2016.02.010
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文本挖掘中命名实体识别是一项重要的研究内容,利用统计学原理进行命名实体识别具有较高的识别率.利用条件随机场(conditional random fields,CRF)方法,研究藏文人名识别技术,重点探讨藏文人名的内部结构特征、上下文特征、特征选择和数据预处理等内容,并通过实验分析了不同特征的有效性.首先给出了基于字(音节)和字位信息的人名识别方法;其次研究了触发词、虚词、人名词典和指人名词后缀为特征的不同特征组合与优化,并细化了不同虚词对人名识别的作用;最后,通过不同组合的实验测试,结果表明:1)触发词和作格助词特征在藏文人名识别上能够起到积极的作用;2)不同特征窗口大小对人名识别有一定影响;3)利用CRF识别藏文人名F1值能够达到80%左右,但由于藏文两字人名的高歧义性,目前还达不到与其他语言相近的识别效果.
引用
收藏
页码:289 / 299
页数:11
相关论文
共 16 条
[1]  
The third international Chinese language processing bakeoff:word segmentation and named entity recognition. Hai Zhao,Chang-Ming Huang,Mu Li. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing . 2006
[2]  
实用藏文文法教程[M]. 四川民族出版社 , 格桑居冕, 2004
[3]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27
[4]   藏族人名文化 [J].
嘎·达哇才仁 .
西藏大学学报(汉文版), 1996, (02) :21-25
[5]   统计与规则相结合的藏文人名自动识别研究 [J].
窦嵘 ;
加羊吉 ;
黄伟 .
长春工程学院学报(自然科学版), 2010, 11 (02) :113-115
[6]   未定义类型的关系抽取的半监督学习框架研究 [J].
程显毅 ;
朱倩 .
南京大学学报(自然科学版), 2012, 48 (04) :466-474
[7]   藏文数词识别与翻译 [J].
孙萌 ;
华却才让 ;
刘凯 ;
吕雅娟 ;
刘群 .
北京大学学报(自然科学版), 2013, 49 (01) :75-80
[8]   基于多步聚类的汉语命名实体识别和歧义消解 [J].
李广一 ;
王厚峰 .
中文信息学报 , 2013, (05) :29-34+42
[9]   基于感知机模型藏文命名实体识别 [J].
华却才让 ;
姜文斌 ;
赵海兴 ;
刘群 .
计算机工程与应用 , 2014, (15) :172-176
[10]   最大熵和条件随机场模型相融合的藏文人名识别 [J].
加羊吉 ;
李亚超 ;
宗成庆 ;
于洪志 .
中文信息学报, 2014, (01) :107-112