学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于MapReduce的并行PLSA算法及在文本挖掘中的应用
被引:12
作者
:
论文数:
引用数:
h-index:
机构:
李宁
[
1
,
2
,
3
]
论文数:
引用数:
h-index:
机构:
罗文娟
[
1
]
论文数:
引用数:
h-index:
机构:
庄福振
[
1
]
论文数:
引用数:
h-index:
机构:
何清
[
1
]
论文数:
引用数:
h-index:
机构:
史忠植
[
1
]
机构
:
[1]
中国科学院计算技术研究所智能信息处理重点实验室
[2]
中国科学院大学
[3]
河北大学数学与计算机学院机器学习与计算智能重点实验室
来源
:
中文信息学报
|
2015年
/ 29卷
/ 02期
关键词
:
概率主题模型;
MapReduce;
并行;
语义分析;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。
引用
收藏
页码:79 / 86
页数:8
相关论文
共 6 条
[1]
文本处理中的MapReduce技术
[J].
论文数:
引用数:
h-index:
机构:
李锐
;
论文数:
引用数:
h-index:
机构:
王斌
.
中文信息学报,
2012,
(04)
:9
-20
[2]
基于概率潜在语义分析的词汇情感倾向判别
[J].
论文数:
引用数:
h-index:
机构:
宋晓雷
;
论文数:
引用数:
h-index:
机构:
王素格
;
论文数:
引用数:
h-index:
机构:
李红霞
;
论文数:
引用数:
h-index:
机构:
李德玉
.
中文信息学报,
2011,
25
(02)
:89
-93
[3]
改进的概率潜在语义分析下的文本聚类算法
[J].
论文数:
引用数:
h-index:
机构:
张玉芳
;
论文数:
引用数:
h-index:
机构:
朱俊
;
论文数:
引用数:
h-index:
机构:
熊忠阳
.
计算机应用,
2011,
31
(03)
:674
-676+693
[4]
一种基于主题的文本聚类方法
[J].
论文数:
引用数:
h-index:
机构:
赵世奇
;
论文数:
引用数:
h-index:
机构:
刘挺
;
论文数:
引用数:
h-index:
机构:
李生
.
中文信息学报,
2007,
(02)
:58
-62
[5]
文档聚类综述
[J].
论文数:
引用数:
h-index:
机构:
刘远超
;
论文数:
引用数:
h-index:
机构:
王晓龙
;
论文数:
引用数:
h-index:
机构:
徐志明
;
论文数:
引用数:
h-index:
机构:
关毅
.
中文信息学报,
2006,
(03)
:55
-62
[6]
Unsupervised learning by probabilistic latent semantic analysis
[J].
Hofmann, T
论文数:
0
引用数:
0
h-index:
0
机构:
Brown Univ, Dept Comp Sci, Providence, RI 02912 USA
Brown Univ, Dept Comp Sci, Providence, RI 02912 USA
Hofmann, T
.
MACHINE LEARNING,
2001,
42
(1-2)
:177
-196
←
1
→
共 6 条
[1]
文本处理中的MapReduce技术
[J].
论文数:
引用数:
h-index:
机构:
李锐
;
论文数:
引用数:
h-index:
机构:
王斌
.
中文信息学报,
2012,
(04)
:9
-20
[2]
基于概率潜在语义分析的词汇情感倾向判别
[J].
论文数:
引用数:
h-index:
机构:
宋晓雷
;
论文数:
引用数:
h-index:
机构:
王素格
;
论文数:
引用数:
h-index:
机构:
李红霞
;
论文数:
引用数:
h-index:
机构:
李德玉
.
中文信息学报,
2011,
25
(02)
:89
-93
[3]
改进的概率潜在语义分析下的文本聚类算法
[J].
论文数:
引用数:
h-index:
机构:
张玉芳
;
论文数:
引用数:
h-index:
机构:
朱俊
;
论文数:
引用数:
h-index:
机构:
熊忠阳
.
计算机应用,
2011,
31
(03)
:674
-676+693
[4]
一种基于主题的文本聚类方法
[J].
论文数:
引用数:
h-index:
机构:
赵世奇
;
论文数:
引用数:
h-index:
机构:
刘挺
;
论文数:
引用数:
h-index:
机构:
李生
.
中文信息学报,
2007,
(02)
:58
-62
[5]
文档聚类综述
[J].
论文数:
引用数:
h-index:
机构:
刘远超
;
论文数:
引用数:
h-index:
机构:
王晓龙
;
论文数:
引用数:
h-index:
机构:
徐志明
;
论文数:
引用数:
h-index:
机构:
关毅
.
中文信息学报,
2006,
(03)
:55
-62
[6]
Unsupervised learning by probabilistic latent semantic analysis
[J].
Hofmann, T
论文数:
0
引用数:
0
h-index:
0
机构:
Brown Univ, Dept Comp Sci, Providence, RI 02912 USA
Brown Univ, Dept Comp Sci, Providence, RI 02912 USA
Hofmann, T
.
MACHINE LEARNING,
2001,
42
(1-2)
:177
-196
←
1
→