话题追踪与演化分析技术研究

被引:0
作者
吕楠
机构
[1] 解放军信息工程大学
关键词
文本信息处理; 话题追踪; 话题结构模型; 事件演化; 子话题; 时间片;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
话题追踪与演化分析技术旨在将用户关注的话题以最直观的方式呈现出来,使得用户方便的对话题的来龙去脉有一个全面的了解,在军事和民用方面都具有重要的理论价值和现实意义。本文主要研究话题追踪技术,话题演化分析技术及话题中的事件发现与关系分析技术,取得了如下四个方面的研究成果: (1)目前的话题追踪与演化分析算法将话题看作是单一的新闻报道的集合,没有考虑到话题的内部结构。本文通过分析话题内部各要素的关系,同时考虑到话题追踪与演化分析任务的时序性,建立了话题结构模型。为话题追踪与演化分析奠定了模型基础。 (2)针对话题的偏移问题,提出了一种基于子话题反馈的话题追踪算法。该算法利用新事件检测的思想进行时间片划分,根据话题的偏移及时地修改话题向量。实验表明,该算法能够有效的适应话题偏移,与传统算法相比提高了话题追踪的召回率。 (3)话题追踪无法分析、表示话题的演化历程,针对这个问题,结合BLOG社团演化分析的思想,提出了基于子话题相似度的话题演化分析算法。实验表明该算法可以准确的展示出话题的发展演化历程。 (4)根据话题结构模型,结合时序文本挖掘的思想,提出了一种基于子话题整合的事件发现算法,并在此基础上改进了事件演化分析算法。该算法充分考虑了话题的内部结构特征,实验证明了算法的有效性。 论文最后给出了话题追踪与演化分析原型系统的设计与实现细节。并对本文工作进行了总结,对今后的工作做了进一步的展望。
引用
收藏
页数:63
共 18 条
[1]
LS-SVM:一种有效的新闻主题追踪方法 [J].
潘渊 ;
李弼程 ;
张先飞 .
计算机应用研究, 2008, (09) :2661-2663+2667
[2]
基于子话题分治匹配的新事件检测 [J].
洪宇 ;
张宇 ;
范基礼 ;
刘挺 ;
李生 .
计算机学报, 2008, (04) :687-695
[3]
基于词元再评估的新事件检测模型 [J].
张阔 ;
李涓子 ;
吴刚 ;
王克宏 .
软件学报, 2008, (04) :817-828
[4]
聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[5]
基于反馈学习自适应的中文话题追踪 [J].
王会珍 ;
朱靖波 ;
季铎 ;
叶娜 ;
张斌 .
中文信息学报, 2006, (03) :92-98
[6]
网页去重策略 [J].
高凯 ;
王永成 ;
肖君 .
上海交通大学学报, 2006, (05) :775-777+782
[7]
基于Web的新闻信息抽取 [J].
朱永盛 ;
武港山 .
计算机工程, 2006, (10) :74-76
[8]
基于可视布局信息的网页噪音去除算法 [J].
荆涛 ;
左万利 .
华南理工大学学报(自然科学版), 2004, (自然科学版) :84-87+98
[9]
基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22
[10]
话题识别与跟踪研究 [J].
李保利 ;
俞士汶 .
计算机工程与应用, 2003, (17) :7-10+109