基于词类和搭配的微博舆情文本聚类方法研究附视频

被引:1
作者
王恒静 [1 ]
曹存根 [2 ]
高尚 [1 ]
机构
[1] 江苏科技大学计算机科学与工程学院
[2] 中国科学院计算技术研究所智能信息处理重点实验室
关键词
微博舆情分析; 词义类簇; 搭配; 相似度; 文本聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
微博是近年出现的新型互联网信息交流平台,它具有主题分散、体量短小、文体自由等特性,它能对社会产生巨大的影响,所以信息监管部门和商业企业对基于微博信息的舆情分析都有迫切需求.提出了基于搭配的文本聚类新方法,该方法先进行微博文本预处理,然后利用词类模型进行自动抽取有效搭配,最后基于有效搭配的模型进行文本聚类.实验证明利用词类文本聚类方法比传统文本聚类方法性能提高6.3%,而本文方法比利用词类文本聚类方法性能提升了16.8%,结果显示了本方法的有效性.
引用
收藏
页码:57 / 65
页数:9
相关论文
共 22 条
[1]  
基于贝叶斯模型的微博虚假话题数据分析研究[D]. 陈慧.山东大学 2013
[2]  
基于LDA模型的文本聚类研究[D]. 董婧灵.华中师范大学 2012
[3]  
基于R值的汉语搭配抽取[D]. 郎需超.北京邮电大学 2012
[4]  
面向短文本的网络舆情分析[D]. 时睿.西安电子科技大学 2012
[5]  
中文文本聚类的评价与改进研究[D]. 楼佳.杭州电子科技大学 2009
[6]  
文本聚类分析效果评价及文本表示研究[D]. 周昭涛.中国科学院研究生院(计算技术研究所) 2005
[7]  
Oxford Dictionary of Current Idiomatic English. Cowie A P,Mackin R,Mc Caig I R. . 1975
[8]  
Improving document clustering in a learned concept space. Jean-Fran?ois Pessiot,Young-Min Kim,Massih R. Amini,Patrick Gallinari. Information Processing Letters . 2010
[9]  
Co-clustering documents and words using bipartite spectral graph partitioning. Dhillon I S,Guan Y,Kogan J. Proceedings of the 7th ACM SIGKDD Conference on Knowledge Discovery and Data Mining . 2001
[10]  
CLGVSM:A-dapting Generalized Vector Space Model to Cross-lingual Document Clustering. G Tang,,Y Xia,M Zhang,et al. Proc.ofIJCNLP 2010 . 2011