基于主题词的微博热点话题发现

被引:9
作者
叶成绪 [1 ,2 ]
杨萍 [3 ]
刘少鹏 [2 ]
机构
[1] 青海师范大学计算机学院
[2] 中山大学信息科学与技术学院
[3] 青海师范大学生命与地理科学学院
关键词
维基百科; 最长公共子串; 热点话题发现; 微博;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
近年来,微博网站已成为海量信息的发布平台。微博丰富的信息为用户提供便利的同时,也带来了信息过载的风险。针对热点话题发现能够降低信息过载的风险,改善用户体验。结合最长公共子串和维基百科知识,提出一种基于主题词的中文微博热点话题发现方法。首先,获取微博数据的高频最长公共子串,作为描述话题的候选主题词;其次,利用维基百科知识,对候选主题词进行筛选;最后,对主题词集合聚类以发现话题,并计算每个话题的能量,从中选取热点话题。在真实数据集上的实验表明,该方法能有效发现微博热点话题。
引用
收藏
页码:46 / 50
页数:5
相关论文
共 3 条
  • [1] 一种中文微博新闻话题检测的方法[J].郑斐然,苗夺谦,张志飞,高灿. 计算机科学.2012(01)
  • [2] 基于MB-LDA模型的微博主题挖掘[J].张晨逸,孙建伶,丁轶群. 计算机研究与发展.2011(10)
  • [3] BreakingnewsdetectionandtrackinginTwitter.2PhuvipadawatS,MurataT.Proceedingsofthe2010InternationalConferenceonWebIntelligenceandIntelligentAgentTechnology.2010