基于词缀库的非监督维吾尔语词切分方法

被引：8

作者：

薛化建 ^{[1
,2
]}

董兴华 ^{[1
,2
]}

王磊 ^{[1
,2
]}

吐尔洪吾司曼 ^{[1
]}

蒋同海 ^{[1
]}

机构：

[1] 中国科学院新疆理化技术研究所

[2] 中国科学院研究生院

来源：

计算机工程与设计 | 2011年 / 32卷 / 09期

关键词：

维吾尔语; 粘着语; 词切分; 词缀库; 最大后验概率; 非监督;

D O I：

10.16208/j.issn1000-7024.2011.09.052

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,实验结果表明,使用该方法进行维吾尔语词切分具有更高的准确率。

引用

页码：3191 / 3194

页数：4

共 9 条

[1] 基于词法分析的维吾尔语元音弱化算法研究 [J].

米热古丽·艾力 ;

米吉提·阿不力米提 ;

艾斯卡尔·艾木都拉 .

中文信息学报, 2008, (04) :43-47

[2] 维吾尔语动词附加语素的复杂特征研究 [J].

阿孜古丽·夏力甫 .

中文信息学报, 2008, (03) :105-109

[3] 中文分词十年回顾 [J].

黄昌宁 ;

赵海 .

中文信息学报, 2007, (03) :8-19

[4] 独立任务分配的贪婪随机自适应搜索过程 [J].

蔡荣英 ;

黄健 ;

林大辉 ;

钟一文 .

计算机工程与设计, 2006, (21) :4036-4038

[5] 维吾尔文信息处理平台Open Type字体制作技术 [J].

阿布力米提.阿不都热依木 .

计算机工程与设计, 2005, (11) :33-34+58

[6] 维吾尔语词切分方法初探 [J].

古丽拉·阿东别克 ;

米吉提·阿布力米提 .

中文信息学报, 2004, (06) :61-65

[7]

维吾尔语语法[M]. - 中央民族大学出版社 , 易坤〓, 1998

[8] Unsupervised models for morpheme segmentation and morphology learning [J].

Creutz, Mathias ;

Lagus, Krista .

ACM Transactions on Speech and Language Processing, 2007, 4 (01)

[9]

A Statistical Method for Uyghur Tokenization .2 M. S. Batuer Aisha. the 2009 IEEE International Conference on Natural Language Processing and Knowledge Engineering (IEEE NLP-KE’’09) . 2009

← 1 →