网络新闻流中热点事件识别与跟踪算法的改进与验证

被引:0
作者
王丫
机构
[1] 燕山大学
关键词
话题识别与跟踪; 新事件识别; 事件跟踪; 文本摘要; 索引结构;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
随着互联网的快速发展,网络新闻已经成为举足轻重的信息发布方式,阅读网络新闻已渐渐成为人们获取信息的一个重要渠道。网络新闻来源众多,并且报道角度和立场各不相同,粗略的新闻分类方式无法帮助用户了解新闻事件的前因后果。面对浩如烟海的互联网信息海洋,人们无法做到“眼观六路,耳听八方”,因此人们迫切希望通过计算机自动处理海量新闻流,快速发现社会热点事件,及时找到感兴趣的相关新闻报道。 本文以网络新闻流为研究对象,利用话题识别与跟踪(Topic Detection and Tracking,TDT)技术对新闻按照事件聚类,提供了一种更直观的新闻分类方式,使用户能清楚地了解当前热点事件,并能持续追踪事件的发展。 首先,介绍TDT技术的国内外研究现状和几种典型的研究方法,描述与TDT相关的关键技术,并改进其中的索引和摘要技术,提出一种适用于汉语的三层索引结构和基于滑动窗口的动态摘要算法。 其次,将新事件识别与KNN分类算法相结合,实现网络新闻流中事件的识别与跟踪。其中引入“事件种子”的概念,实现对新闻报道的快速聚类,并有效地解决了主题漂移的问题;提出一种事件热度计算方法,有效提高系统对新热点事件的敏感度。 最后,完整地实现新闻热点识别与跟踪系统——HEAT,对上述算法和思想进行验证。系统的准确率98%,召回率63%,实验证明,本文提出的算法十分有效。 TDT技术在中文应用方面比较落后,还有很大的研究空间,本文最后对未来的研究方向进行展望。
引用
收藏
页数:86
共 9 条
[1]
基于内容分析的话题检测研究 [J].
赵华 ;
赵铁军 ;
张姝 ;
王浩畅 .
哈尔滨工业大学学报, 2006, (10) :1740-1743
[2]
话题识别与跟踪中的层次化话题识别技术研究 [J].
于满泉 ;
骆卫华 ;
许洪波 ;
白硕 .
计算机研究与发展, 2006, (03) :489-495
[3]
多文档自动文摘综述 [J].
秦兵 ;
刘挺 ;
李生 .
中文信息学报, 2005, (06)
[4]
一种基于动态进化模型的事件探测和追踪算法 [J].
贾自艳 ;
何清 ;
张海俊 ;
李嘉佑 ;
史忠植 .
计算机研究与发展, 2004, (07) :1273-1280
[5]
话题识别与跟踪研究 [J].
李保利 ;
俞士汶 .
计算机工程与应用, 2003, (17) :7-10+109
[6]
基于知识的文本摘要系统研究与实现 [J].
孙春葵 ;
李蕾 ;
杨晓兰 ;
钟义信 .
计算机研究与发展, 2000, (07) :874-881
[8]
基于规则的汉语自动分词系统 [J].
姚天顺 ;
张桂平 ;
吴映明 ;
不详 .
中文信息学报 , 1990, (01) :37-43
[9]
一种支持高效检索的实时更新倒排索引策略.[J].李栋;史晓东;.情报学报.2006, 01