学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于互信息的维吾尔文自适应组词算法
被引:11
作者
:
论文数:
引用数:
h-index:
机构:
吐尔地托合提
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
艾克白尔帕塔尔
[
1
,
2
]
艾斯卡尔艾木都拉
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆多语种信息技术重点实验室
新疆大学信息科学与工程学院
艾斯卡尔艾木都拉
[
1
,
2
]
机构
:
[1]
新疆大学信息科学与工程学院
[2]
新疆多语种信息技术重点实验室
来源
:
计算机应用研究
|
2013年
/ 30卷
/ 02期
关键词
:
维吾尔文;
传统分词;
语义词;
互信息;
组词;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
传统的分词方法将一个维吾尔文语义词(多词关联模式)拆分成与词意义不符的若干个片段,因此在维吾尔语文本分析及文本处理过程中导致许多问题,严重影响文本处理效率。提出了一种维吾尔文组词的全新概念,用互信息作为相邻单词间关联程度的度量,实现了基于分段式策略和增量式策略的两种自适应组词算法,并与传统的分词方法得到的词汇表进行对比分析。实验结果表明,组词算法能够非常有效地提取文本中的语义词,两种算法在大规模文本集上的组词准确率分别达到了84.31%和88.24%。
引用
收藏
页码:429 / 431+435 +435
页数:4
相关论文
共 8 条
[1]
基于机器学习的维吾尔文文本分类研究
[J].
论文数:
引用数:
h-index:
机构:
阿力木江艾沙
;
吐尔根依布拉音
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆大学现代教育技术中心
吐尔根依布拉音
;
论文数:
引用数:
h-index:
机构:
艾山吾买尔
;
论文数:
引用数:
h-index:
机构:
马尔哈巴艾力
.
计算机工程与应用 ,
2012,
(05)
:110
-112
[2]
一种基于互信息的串扫描中文文本分词方法
[J].
论文数:
引用数:
h-index:
机构:
赵秦怡
;
论文数:
引用数:
h-index:
机构:
王丽珍
.
情报杂志,
2010,
29
(07)
:161
-162+172
[3]
基于词条组合的军事类文本分词方法
[J].
黄魏
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统与管理学院
黄魏
;
高兵
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统与管理学院
高兵
;
论文数:
引用数:
h-index:
机构:
刘异
;
杨克巍
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统与管理学院
杨克巍
.
计算机科学,
2010,
37
(02)
:171
-174
[4]
用于文本分类和文本聚类的特征抽取方法的研究
[J].
论文数:
引用数:
h-index:
机构:
孟春艳
.
微计算机信息,
2009,
25
(09)
:149
-150
[5]
面向信息检索的自适应中文分词系统
[J].
曹勇刚
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学计算机学院
曹勇刚
;
曹羽中
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学计算机学院
曹羽中
;
论文数:
引用数:
h-index:
机构:
金茂忠
;
论文数:
引用数:
h-index:
机构:
刘超
.
软件学报,
2006,
(03)
:356
-363
[6]
基于词频统计的中文分词的研究
[J].
费洪晓
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
费洪晓
;
康松林
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
康松林
;
朱小娟
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
朱小娟
;
谢文彪
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
谢文彪
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
不详
.
计算机工程与应用 ,
2005,
(07)
:67
-68+100
[7]
维吾尔语词切分方法初探
[J].
论文数:
引用数:
h-index:
机构:
古丽拉·阿东别克
;
米吉提·阿布力米提
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院,新疆大学信息科学与工程学院新疆乌鲁木齐,新疆乌鲁木齐
米吉提·阿布力米提
.
中文信息学报,
2004,
(06)
:61
-65
[8]
Web数据挖掘.[M].(美) 刘兵; 著.清华大学出版社.2009,
←
1
→
共 8 条
[1]
基于机器学习的维吾尔文文本分类研究
[J].
论文数:
引用数:
h-index:
机构:
阿力木江艾沙
;
吐尔根依布拉音
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆大学现代教育技术中心
吐尔根依布拉音
;
论文数:
引用数:
h-index:
机构:
艾山吾买尔
;
论文数:
引用数:
h-index:
机构:
马尔哈巴艾力
.
计算机工程与应用 ,
2012,
(05)
:110
-112
[2]
一种基于互信息的串扫描中文文本分词方法
[J].
论文数:
引用数:
h-index:
机构:
赵秦怡
;
论文数:
引用数:
h-index:
机构:
王丽珍
.
情报杂志,
2010,
29
(07)
:161
-162+172
[3]
基于词条组合的军事类文本分词方法
[J].
黄魏
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统与管理学院
黄魏
;
高兵
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统与管理学院
高兵
;
论文数:
引用数:
h-index:
机构:
刘异
;
杨克巍
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统与管理学院
杨克巍
.
计算机科学,
2010,
37
(02)
:171
-174
[4]
用于文本分类和文本聚类的特征抽取方法的研究
[J].
论文数:
引用数:
h-index:
机构:
孟春艳
.
微计算机信息,
2009,
25
(09)
:149
-150
[5]
面向信息检索的自适应中文分词系统
[J].
曹勇刚
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学计算机学院
曹勇刚
;
曹羽中
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学计算机学院
曹羽中
;
论文数:
引用数:
h-index:
机构:
金茂忠
;
论文数:
引用数:
h-index:
机构:
刘超
.
软件学报,
2006,
(03)
:356
-363
[6]
基于词频统计的中文分词的研究
[J].
费洪晓
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
费洪晓
;
康松林
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
康松林
;
朱小娟
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
朱小娟
;
谢文彪
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
谢文彪
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
不详
.
计算机工程与应用 ,
2005,
(07)
:67
-68+100
[7]
维吾尔语词切分方法初探
[J].
论文数:
引用数:
h-index:
机构:
古丽拉·阿东别克
;
米吉提·阿布力米提
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院,新疆大学信息科学与工程学院新疆乌鲁木齐,新疆乌鲁木齐
米吉提·阿布力米提
.
中文信息学报,
2004,
(06)
:61
-65
[8]
Web数据挖掘.[M].(美) 刘兵; 著.清华大学出版社.2009,
←
1
→