基于Hadoop平台的海量文本分类的并行化

被引:35
作者
向小军
高阳
商琳
杨育彬
机构
[1] 南京大学计算机科学与技术系
关键词
文本分类; 并行化; 海量数据; Hadoop;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha-doop分布式平台下实现了一简单有效的文本分类算法——TFIDF分类算法,即一种基于向量空间模型的分类算法,它用余弦相似度得到分类结果。在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在实际领域中得到良好的应用。
引用
收藏
页码:184 / 188
页数:5
相关论文
共 5 条
[1]   云计算下的海量数据挖掘研究 [J].
王鄂 ;
李铭 .
现代计算机(专业版), 2009, (11) :22-25+50
[2]   文本分类技术研究 [J].
高洁 ;
吉根林 .
计算机应用研究, 2004, (07) :28-30+34
[3]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[4]   AUTOMATED LEARNING OF DECISION RULES FOR TEXT CATEGORIZATION [J].
APTE, C ;
DAMERAU, F ;
WEISS, SM .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 1994, 12 (03) :233-251
[5]  
中文文本分类语料库-TanCorpV1.0 .2 谭松波,王月粉. http://www.searchforum.org.cn/tansongbo/corpus1.php . 2006