学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于短语的维吾尔文文本分类
被引:9
作者
:
论文数:
引用数:
h-index:
机构:
阿力木江艾沙
[
1
,
2
]
吐尔根依布拉音
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆大学现代教育技术中心
吐尔根依布拉音
[
2
]
论文数:
引用数:
h-index:
机构:
库尔班吾布力
[
2
]
论文数:
引用数:
h-index:
机构:
李哲
[
1
]
机构
:
[1]
新疆大学现代教育技术中心
[2]
新疆大学信息科学与工程学院
来源
:
计算机应用
|
2012年
/ 32卷
/ 10期
关键词
:
文本分类;
短语抽取;
支持向量机;
维吾尔语;
互信息;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。
引用
收藏
页码:2923 / 2926
页数:4
相关论文
共 8 条
[1]
基于机器学习的维吾尔文文本分类研究
[J].
论文数:
引用数:
h-index:
机构:
阿力木江艾沙
;
吐尔根依布拉音
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆大学现代教育技术中心
吐尔根依布拉音
;
论文数:
引用数:
h-index:
机构:
艾山吾买尔
;
论文数:
引用数:
h-index:
机构:
马尔哈巴艾力
.
计算机工程与应用 ,
2012,
(05)
:110
-112
[2]
基于互信息量的分类模型
[J].
论文数:
引用数:
h-index:
机构:
张震
;
论文数:
引用数:
h-index:
机构:
胡学钢
.
计算机应用,
2011,
31
(06)
:1678
-1680
[3]
TFIDF算法研究综述
[J].
施聪莺
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学教育技术系
施聪莺
;
论文数:
引用数:
h-index:
机构:
徐朝军
;
论文数:
引用数:
h-index:
机构:
杨晓江
.
计算机应用,
2009,
29(S1)
(S1)
:167
-170+180
[4]
中文文本分类中的文本表示因素比较
[J].
论文数:
引用数:
h-index:
机构:
张爱华
;
论文数:
引用数:
h-index:
机构:
荆继武
;
论文数:
引用数:
h-index:
机构:
向继
.
中国科学院研究生院学报,
2009,
26
(03)
:400
-407
[5]
基于短语模式的文本情感分类研究
[J].
论文数:
引用数:
h-index:
机构:
李钝
;
论文数:
引用数:
h-index:
机构:
曹付元
;
论文数:
引用数:
h-index:
机构:
曹元大
;
论文数:
引用数:
h-index:
机构:
万月亮
.
计算机科学,
2008,
(04)
:132
-134
[6]
基于关键短语的文本分类研究
[J].
论文数:
引用数:
h-index:
机构:
刘华
.
中文信息学报,
2007,
(04)
:34
-41
[7]
基于机器学习的文本分类技术研究进展
[J].
苏金树
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
苏金树
;
张博锋
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
张博锋
;
论文数:
引用数:
h-index:
机构:
徐昕
.
软件学报,
2006,
(09)
:1848
-1859
[8]
多项式核支持向量机文本分类器泛化性能分析
[J].
论文数:
引用数:
h-index:
机构:
孙建涛
;
论文数:
引用数:
h-index:
机构:
郭崇慧
;
论文数:
引用数:
h-index:
机构:
陆玉昌
;
论文数:
引用数:
h-index:
机构:
石纯一
.
计算机研究与发展,
2004,
(08)
:1321
-1326
←
1
→
共 8 条
[1]
基于机器学习的维吾尔文文本分类研究
[J].
论文数:
引用数:
h-index:
机构:
阿力木江艾沙
;
吐尔根依布拉音
论文数:
0
引用数:
0
h-index:
0
机构:
新疆大学信息科学与工程学院
新疆大学现代教育技术中心
吐尔根依布拉音
;
论文数:
引用数:
h-index:
机构:
艾山吾买尔
;
论文数:
引用数:
h-index:
机构:
马尔哈巴艾力
.
计算机工程与应用 ,
2012,
(05)
:110
-112
[2]
基于互信息量的分类模型
[J].
论文数:
引用数:
h-index:
机构:
张震
;
论文数:
引用数:
h-index:
机构:
胡学钢
.
计算机应用,
2011,
31
(06)
:1678
-1680
[3]
TFIDF算法研究综述
[J].
施聪莺
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学教育技术系
施聪莺
;
论文数:
引用数:
h-index:
机构:
徐朝军
;
论文数:
引用数:
h-index:
机构:
杨晓江
.
计算机应用,
2009,
29(S1)
(S1)
:167
-170+180
[4]
中文文本分类中的文本表示因素比较
[J].
论文数:
引用数:
h-index:
机构:
张爱华
;
论文数:
引用数:
h-index:
机构:
荆继武
;
论文数:
引用数:
h-index:
机构:
向继
.
中国科学院研究生院学报,
2009,
26
(03)
:400
-407
[5]
基于短语模式的文本情感分类研究
[J].
论文数:
引用数:
h-index:
机构:
李钝
;
论文数:
引用数:
h-index:
机构:
曹付元
;
论文数:
引用数:
h-index:
机构:
曹元大
;
论文数:
引用数:
h-index:
机构:
万月亮
.
计算机科学,
2008,
(04)
:132
-134
[6]
基于关键短语的文本分类研究
[J].
论文数:
引用数:
h-index:
机构:
刘华
.
中文信息学报,
2007,
(04)
:34
-41
[7]
基于机器学习的文本分类技术研究进展
[J].
苏金树
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
苏金树
;
张博锋
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
张博锋
;
论文数:
引用数:
h-index:
机构:
徐昕
.
软件学报,
2006,
(09)
:1848
-1859
[8]
多项式核支持向量机文本分类器泛化性能分析
[J].
论文数:
引用数:
h-index:
机构:
孙建涛
;
论文数:
引用数:
h-index:
机构:
郭崇慧
;
论文数:
引用数:
h-index:
机构:
陆玉昌
;
论文数:
引用数:
h-index:
机构:
石纯一
.
计算机研究与发展,
2004,
(08)
:1321
-1326
←
1
→