基于LSA和结构特性的微博话题检测

被引:3
作者
曹春萍
崔海船
机构
[1] 上海理工大学光电信息与计算机工程学院
关键词
微博; 话题检测; 文本聚类; 语义空间; 潜在语义分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP393.092 [];
学科分类号
081203 ; 0835 ; 080402 ;
摘要
针对传统的话题检测方法在处理大规模微博短文本时出现的降维能力不足和语义信息丢失等问题,提出基于潜在语义分析和结构特性相结合的微博话题检测方法。根据微博的对话属性和传播模型,首先要合并微博讨论树扩展微博文本,创建基于潜在语义分析(LSA)的微博文本模型以解决数据稀疏性问题,最后结合时间信息给出新的相似度计算方法,并采用凝聚层次聚类法检测微博话题。实验结果表明,提出的方法降低了话题检测的错失率,大大提高了微博话题检测的性能。
引用
收藏
页码:2720 / 2723
页数:4
相关论文
共 12 条
[1]  
Summarizing microblogs with topic models. SHARFI B,HUTTON M A,KALITA J. Proc of NAACL-Hlt . 2010
[2]   基于词聚类的热点话题检测算法 [J].
龙志祎 ;
程葳 .
计算机工程与设计, 2011, 32 (06) :2214-2217
[3]   基于MB-LDA模型的微博主题挖掘 [J].
张晨逸 ;
孙建伶 ;
丁轶群 .
计算机研究与发展, 2011, (10) :1795-1802
[4]   基于情感分布的微博热点事件发现 [J].
杨亮 ;
林原 ;
林鸿飞 .
中文信息学报, 2012, 26 (01) :84-90+109
[5]   一种中文微博新闻话题检测的方法 [J].
郑斐然 ;
苗夺谦 ;
张志飞 ;
高灿 .
计算机科学, 2012, 39 (01) :138-141
[6]   潜在语义分析理论及其应用 [J].
盖杰 ;
王怡 ;
武港山 .
计算机应用研究, 2004, (03) :9-12+20
[7]  
Hot topic detection in local areas using Twitter and Wikipedia. Ishikawa S,Arakawa Y,Tagashira S, et al. ARCS Workshops (ARCS), 2012 . 2012
[8]   微博信息挖掘技术研究综述 [J].
蒋盛益 ;
麦智凯 ;
庞观松 ;
吴美玲 ;
王连喜 .
图书情报工作, 2012, (17) :136-142
[9]   基于词共现图的中文微博新闻话题识别 [J].
赵文清 ;
侯小可 .
智能系统学报, 2012, 7 (05) :444-449
[10]  
Short text feature selection for microblog mining. LIU Zi-tao,YU Wen-chao,CHEN Wei,et al. Proc of the 4th International Conference on Computational Intelligence and Software Engineering . 2010