基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类

被引:14
作者
阿力甫阿不都克里木 [1 ,2 ,3 ]
李晓 [1 ,2 ]
机构
[1] 中国科学院新疆理化技术研究所
[2] 中国科学院大学
[3] 新疆多语种信息技术重点实验室
关键词
维吾尔语; 文本分类; 关键词提取; TextRank算法; 互信息相似度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。
引用
收藏
页码:36 / 40
页数:5
相关论文
共 10 条
[1]
基于关键词的维吾尔单文档自动文摘技术研究 [J].
买哈铺热提外力 ;
赵梦原 ;
艾斯卡尔艾木都拉 .
计算机工程与应用 , 2015, (16) :130-135
[2]
基于N元模型的维吾尔文文本分类技术研究 [J].
买买提依明哈斯木 ;
吾守尔斯拉木 ;
维尼拉木沙江 ;
努尔麦麦提尤鲁瓦斯 .
计算机应用研究, 2015, 32 (07) :1986-1988+2004
[3]
基于区分性关键词模型的维吾尔文本情感分类 [J].
热依莱木帕尔哈提 ;
孟祥涛 ;
艾斯卡尔艾木都拉 .
计算机工程, 2014, 40 (10) :132-136+142
[4]
维吾尔文Bigram文本特征提取 [J].
阿力木江艾沙 ;
库尔班吾布力 ;
吐尔根依布拉音 .
计算机工程与应用 , 2015, (03) :216-221+228
[5]
一种基于同义词发现的文本扩充算法 [J].
李波 ;
石慧霞 ;
王毅 .
重庆理工大学学报(自然科学), 2014, 28 (02) :76-81
[6]
维吾尔语词法分析的有向图模型 [J].
麦热哈巴艾力 ;
姜文斌 ;
王志洋 ;
吐尔根依布拉音 ;
刘群 .
软件学报, 2012, 23 (12) :3115-3129
[7]
Tag-TextRank:一种基于Tag的网页关键词抽取方法 [J].
李鹏 ;
王斌 ;
石志伟 ;
崔雅超 ;
李恒训 .
计算机研究与发展, 2012, 49 (11) :2344-2351
[8]
基于互信息的维吾尔文自适应组词算法 [J].
吐尔地托合提 ;
艾克白尔帕塔尔 ;
艾斯卡尔艾木都拉 .
计算机应用研究, 2013, 30 (02) :429-431+435
[9]
KNN with TF-IDF based Framework for Text Categorization.[J].Bruno Trstenjak;Sasa Mikac;Dzenana Donko.Procedia Engineering.2014, C
[10]
DegExt: a language-independent keyphrase extractor [J].
Litvak, Marina ;
Last, Mark ;
Kandel, Abraham .
JOURNAL OF AMBIENT INTELLIGENCE AND HUMANIZED COMPUTING, 2013, 4 (03) :377-387