大规模短文本的快速话题发现方法与评价研究

被引:3
作者
韩忠明
张慧
张梦
黄今慧
机构
[1] 北京工商大学计算机与信息工程学院
关键词
短文本; 话题发现; 词共现; 社团发现;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
传统的话题发现研究主要针对于长文本及新闻数据集,大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题。提出了一个融合词共现与加权GN(CW-WGN)算法的快速话题发现方法,描述了CW-WGN方法的详细过程,给出方法的具体算法。采集了sina微博、新闻网站的标题真实的短文本数据,构建了基础测试数据集,采用LDA与K-means方法作为对比进行了大量对比实验。实验结果表明CW-WGN比LDA和K-means方法能够多发现20%以上的正确话题,而且发现的话题纯度也高于LDA与K-means。此外,CWWGN消耗的时间最少,能够有效地从实际大规模短文本上发现话题。
引用
收藏
页码:717 / 722+739 +739
页数:7
相关论文
共 18 条
[1]   LDA-based online topic detection using tensor factorization [J].
Guo, Xin ;
Xiang, Yang ;
Chen, Qian ;
Huang, Zhenhua ;
Hao, Yongtao .
JOURNAL OF INFORMATION SCIENCE, 2013, 39 (04) :459-469
[2]  
Probabilistic approaches to topic detection and tracking. Leek T,Schwartz R,Sista S. Topic detection and tracking . 2002
[3]  
Statistical models of topical content. J.P. Yamron,et al. Topic detection and tracking . 2002
[4]  
A Probabilistic Model for Retrospective News Event Detection. Li ZW,Wang B,Li M J,Ma WY. Proceedings of the 28th annual international ACM SIGIR Conference on Research and Development in Information Retrieval . 2005
[5]  
TextRank: Bringing order into texts. R Mihalcea,P Tarau. Proceedings of EMNLP . 2004
[6]  
Mixtures of hierarchical topics with pachinko allo-cation. Mimno D,Li W,McCallum A. Proceedings of the 24th international conference on Machine learning . 2007
[7]   网络热点事件发现系统的设计 [J].
刘星星 ;
何婷婷 ;
龚海军 ;
陈龙 .
中文信息学报, 2008, (06) :80-85
[8]  
A Biterm topic model for short texts. Yan X,Guo J,Lan Y,et al. Proceedings of the 22nd international conference on World WideWeb . 2013
[9]  
Topic over time:A non-markov continu-ous-time model of topical trends. Wang X,McCallum A. Proceedings of the12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’’06) . 2006
[10]  
Finding bursty topics from microblogs. DiaoQ,Jiang J,Zhu F, et al. Association for Computational Linguistics . 2012