基于词类和搭配的微博舆情文本聚类方法研究附视频

被引:1
作者
王恒静 [1 ]
曹存根 [2 ]
高尚 [1 ]
机构
[1] 江苏科技大学计算机科学与工程学院
[2] 中国科学院计算技术研究所智能信息处理重点实验室
关键词
微博舆情分析; 词义类簇; 搭配; 相似度; 文本聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
微博是近年出现的新型互联网信息交流平台,它具有主题分散、体量短小、文体自由等特性,它能对社会产生巨大的影响,所以信息监管部门和商业企业对基于微博信息的舆情分析都有迫切需求.提出了基于搭配的文本聚类新方法,该方法先进行微博文本预处理,然后利用词类模型进行自动抽取有效搭配,最后基于有效搭配的模型进行文本聚类.实验证明利用词类文本聚类方法比传统文本聚类方法性能提高6.3%,而本文方法比利用词类文本聚类方法性能提升了16.8%,结果显示了本方法的有效性.
引用
收藏
页码:57 / 65
页数:9
相关论文
共 22 条
[11]  
A comparison of document clustering techniques. M Steinbach,G Karypis,V Kumar. Proceedings of Workshopon Text Mining,6th ACM SIGKDD International Conference on Data Mining(KDD’00) . 2000
[12]  
Bayesian word sense induction. S Brody,M Lapata. Proc.of EACL . 2009
[13]   基于框架的词语搭配自动抽取方法 [J].
曲维光 ;
陈小荷 ;
吉根林 .
计算机工程, 2004, (23) :22-24+195
[14]   基于N-gram和向量空间模型的语句相似度研究 [J].
王金铨 ;
梁茂成 ;
俞洪亮 .
现代外语, 2007, (04) :405-413+438
[15]   基于LDA模型的主题词抽取方法 [J].
石晶 ;
李万龙 .
计算机工程, 2010, 36 (19) :81-83
[16]   微博舆情热点分析系统设计研究 [J].
张洋 ;
何楚杰 ;
段俊文 ;
杨春程 .
信息网络安全, 2012, (09) :60-64
[17]   词语搭配抽取的统计方法及计算机实现 [J].
邓耀臣 ;
王同顺 ;
不详 .
外语电化教学 , 2005, (05) :26-29
[18]   基于微博文本的舆情分析和研究 [J].
曾星宇 ;
李淑琴 ;
陈斌 .
信息技术与信息化, 2014, (01) :86-89
[19]   文档聚类综述 [J].
刘远超 ;
王晓龙 ;
徐志明 ;
关毅 .
中文信息学报, 2006, (03) :55-62
[20]   基于微博的网络舆情分析系统设计 [J].
李勇 ;
张克亮 ;
李伟刚 .
计算技术与自动化, 2013, 32 (02) :123-127