一种基于Hadoop平台的并行朴素贝叶斯网络舆情快速分类算法

被引:15
作者
马宾 [1 ,2 ,3 ]
殷立峰 [1 ]
机构
[1] 山东政法学院信息科学技术系
[2] 证据鉴识山东省重点实验室(山东政法学院)
[3] 山东大学电气工程学院
关键词
网络舆情; Hadoop; Map Reduce; 朴素贝叶斯; 分类;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
【目的】研究Hadoop平台下一种改进的并行朴素贝叶斯算法并实现网络舆情信息分类。【应用背景】网络舆情信息存在数据量大,分散度高,数据非结构化等特点,现有技术难以实现网络舆情的准确、快速分类。【方法】利用Hadoop平台分布式数据存储与并行处理的优良特性,实现朴素贝叶斯分类算法的并行化运行;将采集的舆情文档依照HDFS架构进行本地化存储,并通过Map Reduce进程完成并行分类处理。【结果】对Map Reduce封装后的并行朴素贝叶斯分类算法进行性能测试,结果表明本算法分类效率比集中式舆情分类算法提升82%,分类准确率达到85%以上。【结论】本算法能够有效提升网络舆情分类能力与分类效率。
引用
收藏
页码:78 / 84
页数:7
相关论文
共 8 条
[1]   机器学习在中文期刊论文自动分类研究中的应用 [J].
王昊 ;
叶鹏 ;
邓三鸿 .
现代图书情报技术, 2014, (03) :80-87
[2]   突发事件网络衍生舆情监测模型研究 [J].
兰月新 .
现代图书情报技术, 2013, (03) :51-57
[3]   基于矩阵分解与用户近邻模型的协同过滤推荐算法 [J].
杨阳 ;
向阳 ;
熊磊 .
计算机应用, 2012, 32 (02) :395-398
[4]   架构大数据:挑战、现状与展望 [J].
王珊 ;
王会举 ;
覃雄派 ;
周烜 .
计算机学报, 2011, 34 (10) :1741-1752
[5]   网络舆情信息源影响力的评估研究 [J].
郭岩 ;
刘春阳 ;
余智华 ;
张瑾 ;
戴媛 .
中文信息学报, 2011, 25 (03) :64-71
[6]   基于情感词典扩展技术的网络舆情倾向性分析 [J].
杨超 ;
冯时 ;
王大玲 ;
杨楠 ;
于戈 .
小型微型计算机系统, 2010, 31 (04) :691-695
[7]   Predicting user personality by mining social interactions in Facebook [J].
Ortigosa, Alvaro ;
Carro, Rosa M. ;
Quiroga, Jose Ignacio .
JOURNAL OF COMPUTER AND SYSTEM SCIENCES, 2014, 80 (01) :57-71
[8]  
天玑舆情监测服务平台 .2 http://www.int-yt.com/product/441.jhtml . 2014