基于机器学习的维吾尔文文本分类研究

被引:25
作者
阿力木江艾沙 [1 ,2 ]
吐尔根依布拉音 [2 ]
艾山吾买尔 [2 ]
马尔哈巴艾力 [2 ]
机构
[1] 新疆大学现代教育技术中心
[2] 新疆大学信息科学与工程学院
关键词
文本分类; 朴素贝叶斯方法; k-最近邻方法(kNN); 维吾尔语; 特征选择;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP181 [自动推理、机器学习];
学科分类号
120506 [数字人文]; 140502 [人工智能];
摘要
随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型(VSM)表示下的高维性,采用词干提取和IG相结合的方法对表示空间进行降维。采用基于机器学习的分类算法(kNN和Nave Bayes)对维吾尔文文本语料进行了分类实验并分析了实验结果。
引用
收藏
页码:110 / 112
页数:3
相关论文
共 6 条
[1]
一种改进的文本分类特征选择方法 [J].
黄秀丽 ;
王蔚 .
计算机工程与应用 , 2009, (36) :129-130+240
[2]
维吾尔语名词构形词缀有限状态自动机的构造 [J].
早克热·卡德尔 ;
艾山·吾买尔 ;
吐尔根·依布拉音 ;
艾斯卡尔·艾木都拉 .
中文信息学报, 2009, (06) :116-121
[3]
基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[4]
使用KNN算法的文本分类 [J].
张宁 ;
贾自艳 ;
史忠植 .
计算机工程, 2005, (08) :171-172+185
[5]
Landscapes of Naïve Bayes classifiers[J] Zoë Hoare Pattern Analysis and Applications 2008,
[6]
A vector space model for automatic indexing[J] G. Salton;A. Wong;C. S. Yang Communications of the ACM 1975,