并行化的半监督朴素贝叶斯分类算法

被引:3
作者
江凯
高阳
机构
[1] 南京大学计算机软件新技术国家重点实验室
关键词
朴素贝叶斯; 并行化; 半监督; 文本分类; 海量数据;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对当前需要对海量的文本数据进行分类和用于训练的带标记的文本数据非常匮乏这两个问题,结合半监督的朴素贝叶斯分类算法和Map-Reduce编程模型,提出了一种新型的并行化的半监督朴素贝叶斯分类(parallelized semi-supervised Nave Bayes,PSNB)算法。通过实验可以看出,PSNB算法不仅可以高效地处理海量的文本数据,还可以有效地利用无标记的文本数据来提高分类器准确率。
引用
收藏
页码:912 / 918
页数:7
相关论文
共 1 条
[1]  
Text Classification from Labeled and Unlabeled Documents using EM.[J] . Kamal Nigam,Andrew Kachites Mccallum,Sebastian Thrun,Tom Mitchell. Machine Learning . 2000 (2-3)