基于词缀库的非监督维吾尔语词切分方法

被引:8
作者
薛化建 [1 ,2 ]
董兴华 [1 ,2 ]
王磊 [1 ,2 ]
吐尔洪吾司曼 [1 ]
蒋同海 [1 ]
机构
[1] 中国科学院新疆理化技术研究所
[2] 中国科学院研究生院
关键词
维吾尔语; 粘着语; 词切分; 词缀库; 最大后验概率; 非监督;
D O I
10.16208/j.issn1000-7024.2011.09.052
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,实验结果表明,使用该方法进行维吾尔语词切分具有更高的准确率。
引用
收藏
页码:3191 / 3194
页数:4
相关论文
共 9 条
[1]   基于词法分析的维吾尔语元音弱化算法研究 [J].
米热古丽·艾力 ;
米吉提·阿不力米提 ;
艾斯卡尔·艾木都拉 .
中文信息学报, 2008, (04) :43-47
[2]   维吾尔语动词附加语素的复杂特征研究 [J].
阿孜古丽·夏力甫 .
中文信息学报, 2008, (03) :105-109
[3]   中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[4]   独立任务分配的贪婪随机自适应搜索过程 [J].
蔡荣英 ;
黄健 ;
林大辉 ;
钟一文 .
计算机工程与设计, 2006, (21) :4036-4038
[5]   维吾尔文信息处理平台Open Type字体制作技术 [J].
阿布力米提.阿不都热依木 .
计算机工程与设计, 2005, (11) :33-34+58
[6]   维吾尔语词切分方法初探 [J].
古丽拉·阿东别克 ;
米吉提·阿布力米提 .
中文信息学报, 2004, (06) :61-65
[7]  
维吾尔语语法[M]. - 中央民族大学出版社 , 易坤〓, 1998
[8]   Unsupervised models for morpheme segmentation and morphology learning [J].
Creutz, Mathias ;
Lagus, Krista .
ACM Transactions on Speech and Language Processing, 2007, 4 (01)
[9]  
A Statistical Method for Uyghur Tokenization .2 M. S. Batuer Aisha. the 2009 IEEE International Conference on Natural Language Processing and Knowledge Engineering (IEEE NLP-KE’’09) . 2009