大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源

被引：13

作者：

余传明 ^{[1
]}

原赛 ^{[2
]}

王峰 ^{[1
]}

安璐 ^{[3
]}

机构：

[1] 中南财经政法大学信息与安全工程学院

[2] 中南财经政法大学统计与数学学院

[3] 武汉大学信息管理学院

来源：

图书情报工作 | 2019年 / 63卷 / 04期

关键词：

规模适配; 大数据; 海量文本; 情感分析; 机器学习算法;

D O I：

10.13266/j.issn.0252-3116.2019.04.013

中图分类号：

TP391.1 [文字信息处理]; TP311.13 [];

学科分类号：

1201 ;

摘要：

[目的/意义]以大数据环境下的文本情感分析这一特定任务为目的,对规模适配问题进行研究,为情报学领域研究人员进行大数据环境下数据分析时,实现效率和成本的最优选择提供借鉴。[方法/过程]采用斯坦福大学Sentiment140数据集,在对传统情感分析算法分析的基础上,提出了5种面向大数据的文本情感分析算法,检验各种算法在不同环境和数据规模下的适配效果,从准确性、可扩展性和效率等方面进行实证比较研究。[结果/结论]实验结果显示,本文所搭建的集群具有良好的运行效率、正确性以及可扩展性,Spark集群在处理海量文本情感分析数据时更具有效率优势,且在数据规模越大的情况下,效率优势越明显;在资源利用方面,随着节点数和核数的增加,集群的整体运行效率变化显著,配置5个4核4G内存的从节点,能够实现在高效完成分类任务的同时达到节约资源成本的效果。

引用

页码：101 / 111

页数：11

共 30 条

[1] 基于微博情感分析和社会网络分析的雾霾舆情研究
何跃
朱婷婷
[J]. 情报科学, 2018, 36 (07) : 91 - 97
[2] 基于深度循环神经网络的跨领域文本情感分析
余传明
[J]. 图书情报工作, 2018, (11) : 23 - 34
[3] 基于深度表示学习的多语言文本情感分析
余传明
冯博琳
田鑫
安璐
[J]. 山东大学学报(理学版), 2018, 53 (03) : 13 - 23
[4] 融合主题与情感特征的突发事件微博舆情演化分析
安璐
吴林
[J]. 图书情报工作, 2017, 61 (15) : 120 - 129
[5] 基于深度表示学习的跨领域情感分析
余传明
冯博琳
安璐
[J]. 数据分析与知识发现, 2017, 1 (07) : 73 - 81
[6] 基于情感分析的网络谣言识别方法
首欢容
邓淑卿
徐健
[J]. 数据分析与知识发现, 2017, (07) : 44 - 51
[7] MapReduce大数据处理平台与算法研究进展
宋杰
孙宗哲
毛克明
鲍玉斌
于戈
[J]. 软件学报, 2017, 28 (03) : 514 - 543
[8] 基于特征本体的微博产品评论情感分析
唐晓波
兰玉婷
[J]. 图书情报工作, 2016, 60 (16) : 121 - 127+136
[9] SparkCRF:一种基于Spark的并行CRFs算法实现
朱继召
贾岩涛
徐君
乔建忠
王元卓
程学旗
[J]. 计算机研究与发展, 2016, (08) : 1819 - 1828
[10] 基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析
苏莹
张勇
胡珀
涂新辉
[J]. 计算机应用, 2016, 36 (06) : 1613 - 1618

← 1 2 3 →