统计与规则相结合的维吾尔语人名识别方法

被引:22
作者
塔什甫拉提尼扎木丁 [1 ]
汪昆 [2 ]
艾斯卡尔艾木都拉 [1 ]
帕力旦吐尔逊 [3 ]
机构
[1] 新疆大学信息科学与工程学院
[2] 中国科学院自动化研究所模式识别国家重点实验室
[3] 新疆大学软件学院
关键词
维吾尔语; 人名识别; 条件随机场; 音节库;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
命名实体识别(Named entity recognition,NER)是自然语言处理(Natural language processing,NLP)中重要的任务,其中人名实体是主要的识别对象之一.本文从维吾尔语黏着性特点出发,从词干、音节、字符串三个角度对维吾尔语单词进行拆分,获得更小的语言单元,并把切分的新单元作为特征加入到条件随机场(Conditional random field,CRF)中,明显缓解了数据稀疏的影响,取得了比以单词为基本单元的人名识别方法更好的性能.同时还从维吾尔语中汉族人名的特点出发,提出了基于规则的维吾尔语中汉族人名的识别方法,最终利用统计和规则相结合的方法进一步提高了识别的准确率.实验结果表明,该方法人名识别的准确率、召回率和F1值分别达到了87.47%、89.12%和88.29%.
引用
收藏
页码:653 / 664
页数:12
相关论文
共 9 条
[1]
基于统计和规则混合策略的维吾尔人名识别研究 [J].
加日拉买买提热衣木 ;
吐尔根依布拉音 ;
艾山吾买尔 .
新疆大学学报(自然科学版), 2014, 31 (03) :319-324
[2]
基于字符串相似度的维吾尔语中汉语借词识别 [J].
米成刚 ;
杨雅婷 ;
周喜 ;
李晓 ;
杨明忠 .
中文信息学报, 2013, (05) :173-178+190
[3]
基于条件随机场的维吾尔人名识别方法 [J].
艾斯卡尔肉孜 ;
宗成庆 ;
姑丽加玛丽麦麦提艾力 ;
热合木马合木提 ;
艾斯卡尔艾木都拉 .
清华大学学报(自然科学版), 2013, 53 (06) :873-877
[4]
维吾尔语中汉族人名的识别及翻译 [J].
李佳正 ;
刘凯 ;
麦热哈巴艾力 ;
吕雅娟 ;
刘群 ;
吐尔根依布拉音 .
中文信息学报, 2011, 25 (04) :82-87
[6]
基于最大熵模型的中国人名自动识别 [J].
曹波 ;
苏一丹 ;
邓琦 .
计算机工程与应用, 2009, 45 (04) :227-228+234
[7]
基于SVM的中文组块分析 [J].
李珩 ;
朱靖波 ;
姚天顺 .
中文信息学报, 2004, (02) :1-7
[8]
统计自然语言处理[M] 宗成庆; 著 清华大学出版社 2013,
[9]
维吾尔语词汇学与研究[M] 阿布都鲁甫·塔克拉玛干尼; 著 民族出版社 2011,