文本处理中的MapReduce技术

被引:17
作者
李锐 [1 ,2 ]
王斌 [1 ]
机构
[1] 中国科学院计算技术研究所
[2] 中国科学院研究生院
关键词
文本处理; MapReduce; 分布式计算; 综述; Hadoop;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
用于文本处理的很多数据集已经达到TB、PB甚至更大规模,传统的单机方法难以对这些数据进行有效处理。近年来出现的MapReduce计算框架能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,得到了学术界和工业界的广泛认可和使用。目前,MapReduce已经被用于自然语言处理、机器学习及大规模图处理等领域。该文首先对MapReduce做了简单的介绍,并分析了其特点、优势还有不足;然后对MapReduce近年来在文本处理各个方面的应用进行分类总结和整理;最后对MapReduce的系统和性能方面的研究也做了一些介绍与展望。
引用
收藏
页码:9 / 20
页数:12
相关论文
共 10 条
[1]   基于Map/Reduce的网页消重并行算法 [J].
张元丰 ;
董守斌 ;
张凌 ;
陈晓志 .
广西师范大学学报(自然科学版), 2007, (02) :153-156
[2]  
Training Phrase-Based Machine Translation Models on the Cloud: Open Source Machine Translation Toolkit Chaski[J] . Qin Gao,Stephan Vogel.The Prague Bulletin of Mathematical Linguistics . 2010 (-1)
[3]  
MapReduce and parallel DBMSs[J] . Michael Stonebraker,Daniel Abadi,David J. DeWitt,Sam Madden,Erik Paulson,Andrew Pavlo,Alexander Rasin.Communications of the ACM . 2010 (1)
[4]  
MapReduce[J] . Jeffrey Dean,Sanjay Ghemawat.Communications of the ACM . 2010 (1)
[5]  
Grammar based statistical MT on Hadoop: An end-to-end toolkit for large scale PSCFG based MT[J] . Ashish Venugopal,Andreas Zollmann.The Prague Bulletin of Mathematical Linguistics . 2009 (-1)
[6]  
PostCAT - Posterior Constrained Alignment Toolkit[J] . Jo?o Gra?a,Kuzman Ganchev,Ben Taskar.The Prague Bulletin of Mathematical Linguistics . 2009 (-1)
[7]  
Interpreting the data: Parallel analysis with Sawzall[J] . Carlos A. Varela,Paolo Ciancarini,Kenjiro Taura,Rob Pike,Sean Dorward,Robert Griesemer,Sean Quinlan.Scientific Programming . 2005 (4)
[8]  
Evaluating mapreduce for multi-core and multiprocessor systems .2 Ranger C,Raghuraman R,Penmetsa A,Bradski G,Kozyrakis C. Proceedings of the 2007 IEEE 13th International Symposium on High Performance Computer Architecture, HPCA’’07 . 2007
[9]  
Distributed nonnegative matrix factorization for web-scale dyadic data analysis on mapreduce .2 Liu Chao,Yang Hung-chih,Fan Jinliang,et al. International Conference on WWW (2010) . 2010
[10]  
http://boston.lti.cs.cmu.edu/Data/clueweb09 .