基于多策略优化的分治多层聚类算法的话题发现研究

被引:34
作者
骆卫华
于满泉
许洪波
王斌
程学旗
机构
[1] 中国科学院计算技术研究所
关键词
计算机应用; 中文信息处理; 话题发现与跟踪; 分治多层聚类; 系统聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题(微类),然后对所有的微类再进行聚类,得到最终的话题,在聚类的过程中采用多种策略进行优化,以保证聚类的效果。基于该算法的系统在TDT4中文语料上进行了测试,结果表明该算法属于目前结果最好的算法之一。
引用
收藏
页码:29 / 36
页数:8
相关论文
共 1 条
  • [1] Simple Semantics in Topic Detection and Tracking
    Juha Makkonen
    Helena Ahonen-Myka
    Marko Salmenkivi
    [J]. Information Retrieval, 2004, 7 : 347 - 368