网络热点事件发现系统的设计

被引:30
作者
刘星星 [1 ,2 ]
何婷婷 [1 ,2 ]
龚海军 [1 ,2 ]
陈龙 [1 ,2 ]
机构
[1] 华中师范大学计算机科学系
[2] 国家语言资源监测与研究中心网络媒体语言分中心
关键词
计算机应用; 中文信息处理; 事件发现; 凝聚聚类; Single-pass聚类; 热度计算;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
该文设计了一个热点事件发现系统。该系统面向互联网新闻报道流,能自动发现任意一段时间内网络上的热点事件,并给出描述事件发展过程的曲线图。针对网络新闻语料具有数据规模大和时间特征明显两个特性,系统将语料按时间(天)分组,对每天的语料采用凝聚聚类得到微类,选取某段时间内的所有微类,再做Single-pass聚类得到事件列表,利用事件热度计算公式,把候选事件按热度进行排序。采用该系统对2007年新闻语料进行实验,结果表明该系统能取得较好的效果。
引用
收藏
页码:80 / 85
页数:6
相关论文
共 7 条
  • [1] 话题检测与跟踪的评测及研究综述
    洪宇
    张宇
    刘挺
    李生
    [J]. 中文信息学报, 2007, (06) : 71 - 87
  • [2] 基于词语属性的计算机辅助获取流行词语研究
    何婷婷
    朱薏
    张勇
    任函
    [J]. 中文信息学报, 2006, (06) : 38 - 45
  • [3] 基于多策略优化的分治多层聚类算法的话题发现研究
    骆卫华
    于满泉
    许洪波
    王斌
    程学旗
    [J]. 中文信息学报, 2006, (01) : 29 - 36
  • [4] 基于HowNet的话题跟踪及倾向性分类研究[J]. 金珠,林鸿飞,赵晶.情报学报. 2005 (05)
  • [5] 面向互联网的话题发现技术研究[A]. 邱立坤,陶然,龙志祎,程葳.全国网络与信息安全技术研讨会论文集(下册)[C]. 2007
  • [6] 中文计算技术与语言问题研究[M]. 电子工业出版社 , 萧国政, 2007
  • [7] Design and Implementation of On-Line Hot Topic Discovery Model
    YE Hui-min~ 1
    2. Institute of Artificial Intelligence
    [J]. Wuhan University Journal of Natural Sciences, 2006, (01) : 21 - 26