基于短语的维吾尔文文本分类

被引:9
作者
阿力木江艾沙 [1 ,2 ]
吐尔根依布拉音 [2 ]
库尔班吾布力 [2 ]
李哲 [1 ]
机构
[1] 新疆大学现代教育技术中心
[2] 新疆大学信息科学与工程学院
关键词
文本分类; 短语抽取; 支持向量机; 维吾尔语; 互信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。
引用
收藏
页码:2923 / 2926
页数:4
相关论文
共 8 条
[1]
基于机器学习的维吾尔文文本分类研究 [J].
阿力木江艾沙 ;
吐尔根依布拉音 ;
艾山吾买尔 ;
马尔哈巴艾力 .
计算机工程与应用 , 2012, (05) :110-112
[2]
基于互信息量的分类模型 [J].
张震 ;
胡学钢 .
计算机应用, 2011, 31 (06) :1678-1680
[3]
TFIDF算法研究综述 [J].
施聪莺 ;
徐朝军 ;
杨晓江 .
计算机应用, 2009, 29(S1) (S1) :167-170+180
[4]
中文文本分类中的文本表示因素比较 [J].
张爱华 ;
荆继武 ;
向继 .
中国科学院研究生院学报, 2009, 26 (03) :400-407
[5]
基于短语模式的文本情感分类研究 [J].
李钝 ;
曹付元 ;
曹元大 ;
万月亮 .
计算机科学, 2008, (04) :132-134
[6]
基于关键短语的文本分类研究 [J].
刘华 .
中文信息学报, 2007, (04) :34-41
[7]
基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[8]
多项式核支持向量机文本分类器泛化性能分析 [J].
孙建涛 ;
郭崇慧 ;
陆玉昌 ;
石纯一 .
计算机研究与发展, 2004, (08) :1321-1326