学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类
被引:14
作者
:
论文数:
引用数:
h-index:
机构:
阿力甫阿不都克里木
[
1
,
2
,
3
]
论文数:
引用数:
h-index:
机构:
李晓
[
1
,
2
]
机构
:
[1]
中国科学院新疆理化技术研究所
[2]
中国科学院大学
[3]
新疆多语种信息技术重点实验室
来源
:
计算机科学
|
2016年
/ 43卷
/ 12期
关键词
:
维吾尔语;
文本分类;
关键词提取;
TextRank算法;
互信息相似度;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。
引用
收藏
页码:36 / 40
页数:5
相关论文
共 10 条
[1]
基于关键词的维吾尔单文档自动文摘技术研究
[J].
论文数:
引用数:
h-index:
机构:
买哈铺热提外力
;
赵梦原
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学语音和语言技术研究中心
新疆大学信息科学与工程学院
赵梦原
;
艾斯卡尔艾木都拉
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆大学信息科学与工程学院
艾斯卡尔艾木都拉
.
计算机工程与应用 ,
2015,
(16)
:130
-135
[2]
基于N元模型的维吾尔文文本分类技术研究
[J].
论文数:
引用数:
h-index:
机构:
买买提依明哈斯木
;
论文数:
引用数:
h-index:
机构:
吾守尔斯拉木
;
论文数:
引用数:
h-index:
机构:
维尼拉木沙江
;
论文数:
引用数:
h-index:
机构:
努尔麦麦提尤鲁瓦斯
.
计算机应用研究,
2015,
32
(07)
:1986
-1988+2004
[3]
基于区分性关键词模型的维吾尔文本情感分类
[J].
论文数:
引用数:
h-index:
机构:
热依莱木帕尔哈提
;
论文数:
引用数:
h-index:
机构:
孟祥涛
;
艾斯卡尔艾木都拉
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆大学信息科学与工程学院
艾斯卡尔艾木都拉
.
计算机工程,
2014,
40
(10)
:132
-136+142
[4]
维吾尔文Bigram文本特征提取
[J].
论文数:
引用数:
h-index:
机构:
阿力木江艾沙
;
论文数:
引用数:
h-index:
机构:
库尔班吾布力
;
吐尔根依布拉音
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆多语种信息技术重点实验室
新疆大学网络与信息技术中心
吐尔根依布拉音
.
计算机工程与应用 ,
2015,
(03)
:216
-221+228
[5]
一种基于同义词发现的文本扩充算法
[J].
论文数:
引用数:
h-index:
机构:
李波
;
论文数:
引用数:
h-index:
机构:
石慧霞
;
论文数:
引用数:
h-index:
机构:
王毅
.
重庆理工大学学报(自然科学),
2014,
28
(02)
:76
-81
[6]
维吾尔语词法分析的有向图模型
[J].
论文数:
引用数:
h-index:
机构:
麦热哈巴艾力
;
论文数:
引用数:
h-index:
机构:
姜文斌
;
论文数:
引用数:
h-index:
机构:
王志洋
;
吐尔根依布拉音
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆大学信息科学与工程学院
吐尔根依布拉音
;
论文数:
引用数:
h-index:
机构:
刘群
.
软件学报,
2012,
23
(12)
:3115
-3129
[7]
Tag-TextRank:一种基于Tag的网页关键词抽取方法
[J].
李鹏
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
李鹏
;
论文数:
引用数:
h-index:
机构:
王斌
;
论文数:
引用数:
h-index:
机构:
石志伟
;
论文数:
引用数:
h-index:
机构:
崔雅超
;
论文数:
引用数:
h-index:
机构:
李恒训
.
计算机研究与发展,
2012,
49
(11)
:2344
-2351
[8]
基于互信息的维吾尔文自适应组词算法
[J].
论文数:
引用数:
h-index:
机构:
吐尔地托合提
;
论文数:
引用数:
h-index:
机构:
艾克白尔帕塔尔
;
艾斯卡尔艾木都拉
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆多语种信息技术重点实验室
新疆大学信息科学与工程学院
艾斯卡尔艾木都拉
.
计算机应用研究,
2013,
30
(02)
:429
-431+435
[9]
KNN with TF-IDF based Framework for Text Categorization.[J].Bruno Trstenjak;Sasa Mikac;Dzenana Donko.Procedia Engineering.2014, C
[10]
DegExt: a language-independent keyphrase extractor
[J].
Litvak, Marina
论文数:
0
引用数:
0
h-index:
0
机构:
Sami Shamoon Acad Coll Engn, Dept Software Engn, IL-84100 Beer Sheva, Israel
Sami Shamoon Acad Coll Engn, Dept Software Engn, IL-84100 Beer Sheva, Israel
Litvak, Marina
;
论文数:
引用数:
h-index:
机构:
Last, Mark
;
Kandel, Abraham
论文数:
0
引用数:
0
h-index:
0
机构:
Univ S Florida, Dept Comp Sci & Engn, Tampa, FL 33620 USA
Sami Shamoon Acad Coll Engn, Dept Software Engn, IL-84100 Beer Sheva, Israel
Kandel, Abraham
.
JOURNAL OF AMBIENT INTELLIGENCE AND HUMANIZED COMPUTING,
2013,
4
(03)
:377
-387
←
1
→
共 10 条
[1]
基于关键词的维吾尔单文档自动文摘技术研究
[J].
论文数:
引用数:
h-index:
机构:
买哈铺热提外力
;
赵梦原
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学语音和语言技术研究中心
新疆大学信息科学与工程学院
赵梦原
;
艾斯卡尔艾木都拉
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆大学信息科学与工程学院
艾斯卡尔艾木都拉
.
计算机工程与应用 ,
2015,
(16)
:130
-135
[2]
基于N元模型的维吾尔文文本分类技术研究
[J].
论文数:
引用数:
h-index:
机构:
买买提依明哈斯木
;
论文数:
引用数:
h-index:
机构:
吾守尔斯拉木
;
论文数:
引用数:
h-index:
机构:
维尼拉木沙江
;
论文数:
引用数:
h-index:
机构:
努尔麦麦提尤鲁瓦斯
.
计算机应用研究,
2015,
32
(07)
:1986
-1988+2004
[3]
基于区分性关键词模型的维吾尔文本情感分类
[J].
论文数:
引用数:
h-index:
机构:
热依莱木帕尔哈提
;
论文数:
引用数:
h-index:
机构:
孟祥涛
;
艾斯卡尔艾木都拉
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆大学信息科学与工程学院
艾斯卡尔艾木都拉
.
计算机工程,
2014,
40
(10)
:132
-136+142
[4]
维吾尔文Bigram文本特征提取
[J].
论文数:
引用数:
h-index:
机构:
阿力木江艾沙
;
论文数:
引用数:
h-index:
机构:
库尔班吾布力
;
吐尔根依布拉音
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆多语种信息技术重点实验室
新疆大学网络与信息技术中心
吐尔根依布拉音
.
计算机工程与应用 ,
2015,
(03)
:216
-221+228
[5]
一种基于同义词发现的文本扩充算法
[J].
论文数:
引用数:
h-index:
机构:
李波
;
论文数:
引用数:
h-index:
机构:
石慧霞
;
论文数:
引用数:
h-index:
机构:
王毅
.
重庆理工大学学报(自然科学),
2014,
28
(02)
:76
-81
[6]
维吾尔语词法分析的有向图模型
[J].
论文数:
引用数:
h-index:
机构:
麦热哈巴艾力
;
论文数:
引用数:
h-index:
机构:
姜文斌
;
论文数:
引用数:
h-index:
机构:
王志洋
;
吐尔根依布拉音
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆大学信息科学与工程学院
吐尔根依布拉音
;
论文数:
引用数:
h-index:
机构:
刘群
.
软件学报,
2012,
23
(12)
:3115
-3129
[7]
Tag-TextRank:一种基于Tag的网页关键词抽取方法
[J].
李鹏
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
李鹏
;
论文数:
引用数:
h-index:
机构:
王斌
;
论文数:
引用数:
h-index:
机构:
石志伟
;
论文数:
引用数:
h-index:
机构:
崔雅超
;
论文数:
引用数:
h-index:
机构:
李恒训
.
计算机研究与发展,
2012,
49
(11)
:2344
-2351
[8]
基于互信息的维吾尔文自适应组词算法
[J].
论文数:
引用数:
h-index:
机构:
吐尔地托合提
;
论文数:
引用数:
h-index:
机构:
艾克白尔帕塔尔
;
艾斯卡尔艾木都拉
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆多语种信息技术重点实验室
新疆大学信息科学与工程学院
艾斯卡尔艾木都拉
.
计算机应用研究,
2013,
30
(02)
:429
-431+435
[9]
KNN with TF-IDF based Framework for Text Categorization.[J].Bruno Trstenjak;Sasa Mikac;Dzenana Donko.Procedia Engineering.2014, C
[10]
DegExt: a language-independent keyphrase extractor
[J].
Litvak, Marina
论文数:
0
引用数:
0
h-index:
0
机构:
Sami Shamoon Acad Coll Engn, Dept Software Engn, IL-84100 Beer Sheva, Israel
Sami Shamoon Acad Coll Engn, Dept Software Engn, IL-84100 Beer Sheva, Israel
Litvak, Marina
;
论文数:
引用数:
h-index:
机构:
Last, Mark
;
Kandel, Abraham
论文数:
0
引用数:
0
h-index:
0
机构:
Univ S Florida, Dept Comp Sci & Engn, Tampa, FL 33620 USA
Sami Shamoon Acad Coll Engn, Dept Software Engn, IL-84100 Beer Sheva, Israel
Kandel, Abraham
.
JOURNAL OF AMBIENT INTELLIGENCE AND HUMANIZED COMPUTING,
2013,
4
(03)
:377
-387
←
1
→