一种朴素贝叶斯文本分类算法的分布并行实现

被引:5
作者
郭绪坤 [1 ]
范冰冰 [2 ]
机构
[1] 广州体育学院
[2] 华南师范大学计算机学院
关键词
朴素贝叶斯; 文本分类; TF-IDF修正; 数据平滑; MapReduce并行化;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对当前朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,提出一种基于Map Reduce的Dirichlet朴素贝叶斯文本分类算法。算法首先根据体征词语义因素以及类内分布情况对权重进行加权调整,以此对的计算公式进行修正;引入统计语言建模技术中的Dirichlet数据平滑方法来降低数据稀疏对分类性能的影响,并在Hadoop云计算平台采用Map Reduce编程模型实现本文算法的并行化。通过测试实验对比分析可知,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,并具有优良的可扩展性和数据处理能力。
引用
收藏
页码:240 / 243 +296
页数:5
相关论文
empty
未找到相关数据