基于隐含语义分析的微博话题发现方法

被引:32
作者
马雯雯 [1 ]
魏文晗 [1 ]
邓一贵 [1 ,2 ]
机构
[1] 不详
[2] 重庆大学计算机学院
[3] 不详
[4] 重庆大学信息与网络管理中心
[5] 不详
关键词
隐含语义分析; 向量空间模型; 话题发现; 微博; 两阶段聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA)对数据集进行建模;用层次聚类的CURE算法确定初始类中心;用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。
引用
收藏
页码:96 / 100
页数:5
相关论文
共 7 条
[1]   一种中文微博新闻话题检测的方法 [J].
郑斐然 ;
苗夺谦 ;
张志飞 ;
高灿 .
计算机科学, 2012, 39 (01) :138-141
[2]   基于MB-LDA模型的微博主题挖掘 [J].
张晨逸 ;
孙建伶 ;
丁轶群 .
计算机研究与发展, 2011, 48 (10) :1795-1802
[3]   浅析微博中的“微舆情” [J].
李心妍 ;
刘俐俐 .
新闻世界, 2011, (07) :111-112
[4]   基于层次划分的最佳聚类数确定方法 [J].
陈黎飞 ;
姜青山 ;
王声瑞 .
软件学报, 2008, (01) :62-72
[5]   一种基于主题的文本聚类方法 [J].
赵世奇 ;
刘挺 ;
李生 .
中文信息学报, 2007, (02) :58-62
[6]  
微博客热点话题发现策略研究[D]. 杨冠超.浙江大学. 2011
[7]  
A Latent Semantic Indexing-based approach to multilingual document clustering[J] . Chih-Ping Wei,Christopher C. Yang,Chia-Min Lin.Decision Support Systems . 2007 (3)