基于MapReduce的朴素贝叶斯算法在新闻分类中的应用

被引:4
作者
徐保鑫
怀丽波
崔荣一
机构
[1] 延边大学工学院计算机科学与技术学科智能信息处理研究室
关键词
Hadoop; 朴素贝叶斯; MapReduce; 文本分类; 新闻文本;
D O I
10.16379/j.cnki.issn.1004-4353.2017.01.011
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对传统单点串行的分类算法在面对新闻数据规模较大、分类属性较多时存在效率低的问题,本文研究了朴素贝叶斯分类算法在MapReduce下的并行实现方法.首先对新闻信息进行分词、格式转换等预处理,然后进行特征提取、分类模型构造;最后进行了分类测试.测试结果表明,在大数据量的情况下,并行化的贝叶斯算法较传统的贝叶斯算法具有更好的执行效率和较高的扩展性.
引用
收藏
页码:55 / 59
页数:5
相关论文
共 13 条
[1]  
朴素贝叶斯分类及其应用研究.[D].段晶.大连海事大学.2011, 09
[2]  
基于Hadoop的海量数据处理模型研究和应用.[D].朱珠.北京邮电大学.2008, 11
[3]  
Deep feature weighting for naive Bayes and its application to text classification.[J].Liangxiao Jiang;Chaoqun Li;Shasha Wang;Lungan Zhang.Engineering Applications of Artificial Intelligence.2016,
[4]  
新闻传播的大数据时代.[M].喻国明;李彪;杨雅;李慧娟.中国人民大学出版社.2014,
[5]  
Hadoop权威指南.[M].(美) 怀特 (White;T.) ; 著.清华大学出版社.2011,
[6]   一种朴素贝叶斯文本分类算法的分布并行实现 [J].
郭绪坤 ;
范冰冰 .
计算机应用与软件, 2016, (11) :240-243
[7]   基于MapReduce的朴素贝叶斯文本分类研究 [J].
严嘉铭 ;
黄理灿 .
工业控制计算机, 2016, 29 (04) :96-97+100
[8]   一种基于Hadoop平台的并行朴素贝叶斯网络舆情快速分类算法 [J].
马宾 ;
殷立峰 .
现代图书情报技术, 2015, (02) :78-84
[9]   基于MapReduce的海量数据挖掘技术研究 [J].
李伟卫 ;
赵航 ;
张阳 ;
王勇 .
计算机工程与应用, 2013, 49 (20) :112-117
[10]   基于“中文新闻信息分类与代码”文本分类 [J].
张志平 .
太原理工大学学报, 2010, 41 (04) :402-405+411