基于Naive Bayes的维吾尔文文本分类算法及其性能分析

被引:7
作者
艾海麦提江·阿布来提
吐尔地·托合提
艾斯卡尔·艾木都拉
机构
[1] 新疆大学信息科学与工程学院
关键词
维吾尔文; 文本分类; Naive Bayes; 词干提取; 停用词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
以大规模网络维吾尔文文本的自动分类技术研究为背景,设计模块化结构的维吾尔文本分类系统,在深入调研基础上选择Naive Bayes算法为分类引擎,用C#实现分类系统。预处理中,结合维吾尔语的词法特征,通过引入词干提取方法大大降低特征维数。在包含10大类共计3 000多个较大规模文本语料库基础上给出分类实验结果,再通过x2统计方法选择不同数目的特征,也分别给出分类实验结果。结果表明,预处理后的维吾尔文特征空间中只有1%-3%特征是最佳的,因而进一步确定哪些是最佳特征或降低特征空间维数是有可能的。
引用
收藏
页码:27 / 29
页数:3
相关论文
共 6 条
[1]   维、哈、柯全文搜索引擎检索器的关键技术 [J].
吐尔地·托合提 ;
维尼拉·木沙江 ;
艾斯卡尔·艾木都拉 .
计算机工程, 2008, (21) :45-47
[2]  
中文文本分类中特征选择方法的研究与实现.[D].裴英博.西北大学.2010, 10
[3]  
中文文本分类特征选择方法研究.[D].王小青.西南大学.2010, 08
[4]  
基于X~2统计的中文文本分类特征选择方法研究.[D].张鹏招.重庆大学.2008, 06
[5]  
数据挖掘基础教程.[M].(印) 西蒙 (Siomon;K.P.) 等; 著.机械工业出版社.2009,
[6]  
数据挖掘与知识发现.[M].李雄飞;李军编著;.高等教育出版社.2003,