基于个人微博特征的事件提取研究

被引:3
作者
高永兵
陈超
熊振华
王宇
马占飞
机构
[1] 内蒙古科技大学信息工程学院
关键词
微博特点; 事件提取; 综合相似度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
个人微博在事件提取上大多都是运用文本进行相似度计算最终达到聚类结果,而没有充分的考虑到微博特征。针对微博标签、URL、时间等特征,提出一种基于微博特征的事件提取算法。该算法针对微博的特征进行TF-IDF的改进,并加入标签相似度,URL相似度,进行综合相似度计算,最后按时间先分段后合并的改进K-means聚类方法得出事件提取结果。实验结果表明,基于微博特征的事件提取算法对微博关键字提取和事件提取的精确度有明显的提高。
引用
收藏
页码:47 / 51
页数:5
相关论文
共 9 条
[1]  
Twevent: segment-based event detection from tweets. Li C,Sun A,Datta A. Proceedings ofthe21st ACM International Conference on Information and Knowledge Management . 2012
[2]  
Timeline generation: tracking individuals on twitter. Li J,Cardie C. Proceedings ofthe23rd international conference on World wide web . 2014
[3]  
Summarizing MicroblogsAutomatically. B. Sharifi,,M.A. Hutton,J. Kalita. Human Language Technologies: The 2010 AnnualConference of the North American Chapter of the Association forComputational Linguistics . 2010
[4]   基于LDA的改进K-means算法在文本聚类中的应用 [J].
王春龙 ;
张敬旭 .
计算机应用, 2014, 34 (01) :249-254
[5]   EDM:高效的微博事件检测算法 [J].
童薇 ;
陈威 ;
孟小峰 .
计算机科学与探索, 2012, 6 (12) :1076-1086
[6]   基于TFIDF文本特征加权方法的改进研究 [J].
张保富 ;
施化吉 ;
马素琴 .
计算机应用与软件, 2011, 28 (02) :17-20
[7]   基于信息熵的改进TFIDF特征选择算法 [J].
周炎涛 ;
唐剑波 ;
王家琴 .
计算机工程与应用, 2007, (35) :156-158+171
[8]  
Provenance-based indexing support in micro-blog platforms. Yao J,Cui B,Xue Z, et al. Data Engineering (ICDE),2012 IEEE 28th International Conference on . 2012
[9]  
"Breaking News Detection and Tracking in Twitter,". Phuvipadawat, S,Murata, T. Web Intelligence and Intelligent Agent Technology (WI-IAT),2010 IEEE/WIC/ACM International Conference on . Aug.31 2010-Sept 3 2010