利用概率主题模型的微博热点话题发现方法

被引:7
作者
米文丽 [1 ]
孙曰昕 [2 ]
机构
[1] 陇东学院信息工程学院
[2] 西北师范大学计算机科学与工程学院
关键词
概率潜在语义分析; 话题发现; 微博; Kmeans;
D O I
暂无
中图分类号
TP393.092 []; TP391.1 [文字信息处理];
学科分类号
080402 ; 081203 ; 0835 ;
摘要
微博具有长度短、实时传播、结构复杂以及变形词多等特点,传统的向量空间模型(VSM)文本表示方法和隐含语义分析(LSA)无法很好的对其进行建模.提出了一种基于概率潜在语义分析(pLSA)和K均值聚类(Kmeans)的二阶段聚类算法,此外通过定义微博热度分析和排序,有效地支持微博热点话题发现.实验表明,此方法能有效地进行话题聚类并检测出热点话题.
引用
收藏
页码:163 / 167
页数:5
相关论文
empty
未找到相关数据