基于MapReduce的并行PLSA算法及在文本挖掘中的应用

被引：12

作者：

李宁 ^{[1
,2
,3
]}

罗文娟 ^{[1
]}

庄福振 ^{[1
]}

何清 ^{[1
]}

史忠植 ^{[1
]}

机构：

[1] 中国科学院计算技术研究所智能信息处理重点实验室

[2] 中国科学院大学

[3] 河北大学数学与计算机学院机器学习与计算智能重点实验室

来源：

中文信息学报 | 2015年 / 29卷 / 02期

关键词：

概率主题模型; MapReduce; 并行; 语义分析;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。

引用

页码：79 / 86

页数：8

共 6 条

[1]

文本处理中的MapReduce技术 [J].