基于MapReduce框架一种文本挖掘算法的设计与实现

被引:4
作者
朱蔷蔷
张桂芸
刘文龙
机构
[1] 天津师范大学计算机与信息工程学院
基金
天津市科技支撑计划;
关键词
Hadoop; MapReduce; 相邻词组; 降序输出;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
随着文本挖掘在主动信息服务中应用的日益扩展,在文本数据的基础上分析数据的内在特征已经成为目前的研究趋势,本文在Hadoop平台上设计并实现了一种文本挖掘算法,该算法利用Ma-pReduce框架按照自然语料中相邻词组出现的频数进行降序输出,从而有助于用户挖掘大量数据中各项集之间的联系,实验结果体现了该算法的有效性和良好的加速比.
引用
收藏
页码:110 / 113
页数:4
相关论文
共 6 条
[1]   一种基于反向文本频率互信息的文本挖掘算法研究 [J].
周戈 .
计算机应用研究, 2012, 29 (02) :487-489
[2]   基于Hadoop的Web日志挖掘 [J].
程苗 ;
陈华平 .
计算机工程, 2011, 37 (11) :37-39
[3]   基于文本挖掘的聚类算法研究 [J].
徐东亮 ;
董开坤 ;
李斌 ;
王研芬 .
微计算机信息, 2011, 27 (02) :168-169+65
[4]   基于词性的文本挖掘算法在IDS日志中的应用 [J].
胡军光 ;
刘力 ;
车奇 .
计算机与数字工程, 2010, 38 (02) :90-93
[5]  
基于云计算的文本挖掘算法研究[D]. 刘智勇.电子科技大学. 2011
[6]  
Hadoop的重复数据清理模型研究与实现[D]. 曾理.南华大学. 2010