随着互联网的快速发展,网络新闻已经成为举足轻重的信息发布方式,阅读网络新闻已渐渐成为人们获取信息的一个重要渠道。网络新闻来源众多,并且报道角度和立场各不相同,粗略的新闻分类方式无法帮助用户了解新闻事件的前因后果。面对浩如烟海的互联网信息海洋,人们无法做到“眼观六路,耳听八方”,因此人们迫切希望通过计算机自动处理海量新闻流,快速发现社会热点事件,及时找到感兴趣的相关新闻报道。
本文以网络新闻流为研究对象,利用话题识别与跟踪(Topic Detection and Tracking,TDT)技术对新闻按照事件聚类,提供了一种更直观的新闻分类方式,使用户能清楚地了解当前热点事件,并能持续追踪事件的发展。
首先,介绍TDT技术的国内外研究现状和几种典型的研究方法,描述与TDT相关的关键技术,并改进其中的索引和摘要技术,提出一种适用于汉语的三层索引结构和基于滑动窗口的动态摘要算法。
其次,将新事件识别与KNN分类算法相结合,实现网络新闻流中事件的识别与跟踪。其中引入“事件种子”的概念,实现对新闻报道的快速聚类,并有效地解决了主题漂移的问题;提出一种事件热度计算方法,有效提高系统对新热点事件的敏感度。
最后,完整地实现新闻热点识别与跟踪系统——HEAT,对上述算法和思想进行验证。系统的准确率98%,召回率63%,实验证明,本文提出的算法十分有效。
TDT技术在中文应用方面比较落后,还有很大的研究空间,本文最后对未来的研究方向进行展望。