基于互信息的维吾尔文自适应组词算法

被引:11
作者
吐尔地托合提 [1 ,2 ]
艾克白尔帕塔尔 [1 ,2 ]
艾斯卡尔艾木都拉 [1 ,2 ]
机构
[1] 新疆大学信息科学与工程学院
[2] 新疆多语种信息技术重点实验室
关键词
维吾尔文; 传统分词; 语义词; 互信息; 组词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
传统的分词方法将一个维吾尔文语义词(多词关联模式)拆分成与词意义不符的若干个片段,因此在维吾尔语文本分析及文本处理过程中导致许多问题,严重影响文本处理效率。提出了一种维吾尔文组词的全新概念,用互信息作为相邻单词间关联程度的度量,实现了基于分段式策略和增量式策略的两种自适应组词算法,并与传统的分词方法得到的词汇表进行对比分析。实验结果表明,组词算法能够非常有效地提取文本中的语义词,两种算法在大规模文本集上的组词准确率分别达到了84.31%和88.24%。
引用
收藏
页码:429 / 431+435 +435
页数:4
相关论文
共 8 条
[1]
基于机器学习的维吾尔文文本分类研究 [J].
阿力木江艾沙 ;
吐尔根依布拉音 ;
艾山吾买尔 ;
马尔哈巴艾力 .
计算机工程与应用 , 2012, (05) :110-112
[2]
一种基于互信息的串扫描中文文本分词方法 [J].
赵秦怡 ;
王丽珍 .
情报杂志, 2010, 29 (07) :161-162+172
[3]
基于词条组合的军事类文本分词方法 [J].
黄魏 ;
高兵 ;
刘异 ;
杨克巍 .
计算机科学, 2010, 37 (02) :171-174
[4]
[5]
面向信息检索的自适应中文分词系统 [J].
曹勇刚 ;
曹羽中 ;
金茂忠 ;
刘超 .
软件学报, 2006, (03) :356-363
[6]
基于词频统计的中文分词的研究 [J].
费洪晓 ;
康松林 ;
朱小娟 ;
谢文彪 ;
不详 .
计算机工程与应用 , 2005, (07) :67-68+100
[7]
维吾尔语词切分方法初探 [J].
古丽拉·阿东别克 ;
米吉提·阿布力米提 .
中文信息学报, 2004, (06) :61-65
[8]
Web数据挖掘.[M].(美) 刘兵; 著.清华大学出版社.2009,