伴随社交网络的诞生,越来越多的互联网应用具有极强的交互性和社会性。互联网的发展由此变的更加多样化。从2006年开始,Twitter网站开始提供一种兼具社交网络和即时通讯功能的微博客服务,微博客的概念第一次出现在互联网。微博客作为一种新媒介,区别于传统的博客,其内容更加的短小精悍,通常只允许用户输入140个字符。用户在所编辑的内容里可以包含简短的文本,图片及视频的链接,以及其他网页的链接。这种新颖的信息传播模式,由于其良好的实时性和开放性的特性,很快得到用户的青睐,这种微博客服务也快速的在全球传播,引发了一场互联网的微博客革命。
由于微博服务商提供了开放的API,用户可以随时随地通过Web、WAP以及各种客户端发表微博,告诉他人你在干什么。在微博客的社交网络中,用户可以自由关注自己感兴趣的人,并能够实时接受他所发表的微博。有研究表明,用户在微博客上的行为主要包括四个方面:更新状态,与朋友聊天,分享信息以及报道新闻。
基于微博客的这种实时性和社交性的特征,用户对于实时性的检索需求日益增长。这种需求主要包括两个方面:对于热点话题持续关注以及了解话题的实时动态。基于此,本文主要进行了如下的研究:
一方面,由于微博的实时响应特征,人们喜欢利用微博关注和报道发生在身边和世界的话题(新闻),尤其是头条新闻。随着大量新鲜话题在类Twitter网站上创建,要求系统追踪话题进展的需求日渐增长。由此本文定义了微博客上的话题追踪问题。为了解决微博中存在的话题漂移和大量噪声,本文提出基于动态话题模型和微博信息熵相结合的流的动态话题模型。该模型能够克服话题漂移问题,并进一步降低结果中的噪声。尤其是微博信息熵能够衡量一条微博对于话题报道的重要性,并较好的区分新闻类和中间类微博。本文在超过17万用户的1千2百万条微博上进行了话题追踪,实验表明,本文算法较之传统的动态话题模型更有效,追踪结果包含更少噪声。
另一方面,微博客能够在短时间内产生海量的信息,用户产生了实时性的检索需求。区别于传统的信息检索,实时检索要求结果的实时性更强。基于此,本文提出了考虑时间因素的查询扩展算法,考虑时间对于文档与查询的先验概率的影响,并引入相关反馈。此外本文还提出了考虑质量因素的排序调整策略,通过微博的信息熵以及短链接等特征对排序结果进行调整。在Twitter数据集上的实验表明,本章提出的算法有效的提高了检索性能,检索结果更能满足用户的实时性需求。