基于改进权重贝叶斯的维文文本分类模型

被引:10
作者
李艳姣 [1 ,2 ]
蒋同海 [1 ]
机构
[1] 中国科学院研究生院
[2] 中国科学院新疆理化技术研究所
关键词
文本分类; 贝叶斯; 卡方; 加权; 文档频率; 特征选择;
D O I
10.16208/j.issn1000-7024.2012.12.035
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为提高朴素贝叶斯分类器的分类性能,考虑决策分类过程中条件属性的不同重要程度,提出了一种基于特征选择权重的贝叶斯分类算法。采用卡方值和文档频数相结合的数值来表示特征词的重要程度,对该值进行处理获得每个特征词权重,建立加权贝叶斯分类器。在研究维文特点的基础上,利用该算法构建了一个维文文本分类模型。在搜集到的维文语料库上进行的实验结果表明,该算法比朴素贝叶斯拥有更好的分类性能。
引用
收藏
页码:4726 / 4730
页数:5
相关论文
共 6 条
[1]  
文本分类中特征选择的研究与实现.[D].范小丽.西北大学.2011, 08
[2]  
选择性加权朴素贝叶斯分类方法的探讨.[D].彭浩威.中山大学.2010, 04
[3]  
信息检索系统导论.[M].刘挺等; 编著.机械工业出版社.2008,
[4]   基于词缀库的非监督维吾尔语词切分方法 [J].
薛化建 ;
董兴华 ;
王磊 ;
吐尔洪吾司曼 ;
蒋同海 .
计算机工程与设计, 2011, 32 (09) :3191-3194
[5]   文本分类性能评价研究 [J].
奉国和 .
情报杂志, 2011, 30 (08) :66-70
[6]   基于超球支持向量机的多主题文本分类算法 [J].
艾青 ;
秦玉平 ;
李迎春 .
计算机工程与设计, 2010, 31 (10) :2273-2275+2279