基于Hadoop云计算平台的海量文本处理研究

被引:12
作者
张学亮
陈金勇
陈勇
机构
[1] 中国电子科技集团公司第五十四研究所
关键词
海量文本处理; Hadoop; HDFS; HBase; MapReduce; 分布式并行处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对海量文本数据处理,为实现快速文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于Hadoop云计算平台,建立HDFS分布式文件系统存储海量文本数据集,通过文本词频利用MapReduce原理建立分布式索引,以分布式数据库HBase存储关键词索引,并提供实时检索,实现对海量文本数据的分布式并行处理。实验结果表明,Hadoop框架为大规模数据的分布式并行处理提供了很好的解决方案。
引用
收藏
页码:54 / 57
页数:4
相关论文
共 9 条
[1]   文本处理中的MapReduce技术 [J].
李锐 ;
王斌 .
中文信息学报, 2012, 26 (04) :9-20
[2]   基于云计算的中文分词研究 [J].
张妍 ;
许云峰 ;
张立全 .
河北科技大学学报, 2012, (03) :266-269
[3]   云计算中的MapReduce技术 [J].
郎为民 ;
杨德鹏 .
电信快报, 2012, (03) :3-5+12
[4]   云计算中的并行计算技术分析 [J].
郑文武 ;
李先绪 ;
黄执勤 .
电信科学, 2011, 27 (12) :31-38
[5]   基于Hadoop云计算模型探究 [J].
李珺 .
信息安全与技术, 2011, (06) :30-32+37
[6]   MapReduce:新型的分布式并行计算编程模型 [J].
李成华 ;
张新访 ;
金海 ;
向文 .
计算机工程与科学, 2011, 33 (03) :129-135
[7]   面向机构的智能文本分析系统的研究 [J].
陈勇 ;
张佳骥 ;
戎纪光 .
无线电工程, 2007, (02) :31-33
[8]  
Hadoop权威指南.[M].(美) 怀特 (White;T.) ; 著.清华大学出版社.2011,
[9]  
云计算的关键技术与应用实例.[M].王鹏著.人民邮电出版社.2010,