微博突发话题检测、跟踪与传播预测技术研究

被引:0
作者
郝建波
机构
[1] 哈尔滨工程大学
关键词
微博网络; 数据挖掘; 话题检测; 传播建模; 传播预测;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
随着互联网的迅猛发展,网络在人们的生活中扮演着越来越重的地位,其用户数量也越来越多,如何从繁杂的网络信息中获取用户感兴趣的信息,成为数据挖掘领域的一大难题。研究发现,当前突发话题检测技术无法发现由新词组成的突发话题,导致突发检测不准确;当前话题跟踪技术不适合由短文本组成的微博网络;当前话题传播与预测尚处于初级阶段,基于微博话题无法准确的预测下个时间段的传播规模。基于以上发现,本文在已有研究的基础上,重点分析基于微博的突发话题检测、跟踪与传播预测技术。提出三个问题的解决方案如下: 鉴于微博网络的用语灵活性,提出基于特征字的突发话题检测与跟踪算法,旨在快速的检测微博中由新词组成的突发话题。提出基于微博消息权重的特征字权重计算方法,提高特征字权重的准确度;定义“微博数窗口”,代替当前的“时间窗口”,提高检测系统的效率和检测大规模突发的速度;提出基于相似度和文档重叠度相结合的关联度计算算法,既保证了关联度计算的准确率,同时加快了计算速度;提出一种由突发检测算法演化来的话题跟踪算法,解决微博中漂移话题的跟踪问题。 通过对病毒传染模型、消息传播模型以及话题传播模型进行深入的研究,提出一种基于微博粉丝关系、用户活跃度和影响力的话题传播模型。将微博用户集合划分为感染用户、易染用户和免疫用户三个部分,传播的影响因素主要有三个:感染用户对其粉丝的感染度,易染用户的活跃度和突发话题本身的突发性。然后通过分析感染用户和易染用户之间的粉丝关系,预测下个窗口内的被感染的用户规模。另外,本文沿用原有话题传播的“内外场强”概念,通过研究发现“内场强”和“外场强”有特定的比例关系。基于用户群的规模大小,本文给出基于用户的话题传播预测和基于规模的话题传播预测,前者结果更准确但是时间复杂度高,后者则更适合大规模数据。 综上所述,本文主要根据文本的内容进行突发话题的检测与跟踪,针对现有突发检测算法无法发现有新词组成的突发话题,提出基于特征字话题检测与跟踪的研究思想。在话题传播预测中,充分考虑微博传播的线路和概率性,并结合病毒传播模型,给出基于用户的话题传播预测和基于规模的话题传播预测。通过实验验证了本文所提检测跟踪算法和预测模型,为突发话题检测与跟踪以及话题传播预测研究提供了一些新的想法,最后本文给出了系统的整体框架和对该领域的前景展望。
引用
收藏
页数:60
共 16 条
[1]
中文微博客热点话题检测与跟踪技术研究 [D]. 
孙胜平 .
北京交通大学,
2011
[2]
基于微博的突发事件检测和信息传播建模 [D]. 
刘丰 .
哈尔滨工业大学,
2011
[3]
基于突发特征分析的事件检测 [J].
陈宏 ;
陈伟 .
计算机应用研究, 2011, 28 (01) :117-120
[4]
基于时间分布特征的博客突发事件检测 [J].
林达真 ;
李绍滋 ;
曹冬林 .
计算机工程与科学, 2010, 32 (10) :145-149
[5]
基于语义的微博短信息分类 [J].
崔争艳 .
现代计算机(专业版), 2010, (08) :18-20+24
[6]
面向网络论坛的突发话题发现 [J].
陈友 ;
程学旗 ;
杨森 .
中文信息学报, 2010, (03) :29-36
[7]
基于完全级联传播模型的社区影响最大化 [J].
冀进朝 ;
韩笑 ;
王喆 .
吉林大学学报(理学版), 2009, 47 (05) :1032-1034
[8]
博客网络中具有突发性的话题传播模型 [J].
赵丽 ;
袁睿翕 ;
管晓宏 ;
贾庆山 .
软件学报, 2009, 20 (05) :1384-1392
[9]
基于语义域语言模型的中文话题关联检测 [J].
洪宇 ;
张宇 ;
范基礼 ;
刘挺 ;
李生 .
软件学报, 2008, (09) :2265-2275
[10]
基于词元再评估的新事件检测模型 [J].
张阔 ;
李涓子 ;
吴刚 ;
王克宏 .
软件学报, 2008, (04) :817-828