维吾尔语词法分析的有向图模型

被引:32
作者
麦热哈巴艾力 [1 ,2 ]
姜文斌 [2 ,3 ]
王志洋 [2 ,3 ]
吐尔根依布拉音 [1 ]
刘群 [2 ]
机构
[1] 新疆大学信息科学与工程学院
[2] 中国科学院计算技术研究所
[3] 中国科学院研究生院
关键词
维吾尔语; 词法分析; 词语切分; 词性标注; 有向图;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原.在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F值达到92.6%的好成绩.
引用
收藏
页码:3115 / 3129
页数:15
相关论文
共 10 条
[1]
基于噪声信道的维吾尔语央音原音识别模型 [J].
艾山·吾买尔 ;
吐尔根·依步拉音 ;
早克热·卡德尔 .
计算机工程与应用, 2010, (15) :118-120+192
[2]
基于无向图序列标注模型的中文分词词性标注一体化系统 [J].
朱聪慧 ;
赵铁军 ;
郑德权 .
电子与信息学报, 2010, 32 (03) :700-704
[3]
维吾尔语名词构形词缀有限状态自动机的构造 [J].
早克热·卡德尔 ;
艾山·吾买尔 ;
吐尔根·依布拉音 ;
艾斯卡尔·艾木都拉 .
中文信息学报, 2009, (06) :116-121
[4]
一种基于字词联合解码的中文分词方法 [J].
宋彦 ;
蔡东风 ;
张桂平 ;
赵海 .
软件学报, 2009, 20 (09) :2366-2375
[5]
维吾尔语形容词构形词缀有限状态自动机 [J].
早克热·卡德尔 ;
吐尔根·依布拉音 .
电脑知识与技术, 2009, 5 (04) :939-941
[6]
基于词法分析的维吾尔语元音弱化算法研究 [J].
米热古丽·艾力 ;
米吉提·阿不力米提 ;
艾斯卡尔·艾木都拉 .
中文信息学报, 2008, (04) :43-47
[7]
中文词法分析与句法分析融合策略研究 [J].
米海涛 ;
熊德意 ;
刘群 .
中文信息学报, 2008, (02) :10-17
[8]
维吾尔语词切分方法初探 [J].
古丽拉·阿东别克 ;
米吉提·阿布力米提 .
中文信息学报, 2004, (06) :61-65
[9]
电脑处理维吾尔语语音和谐律的可能性[J] 力提甫·托乎提 中央民族大学学报 2004, 05
[10]
Hierarchical Phrase-Based Translation[J] David Chiang Computational Linguistics 2007,