基于线索树双层聚类的微博话题检测

被引:15
作者
马彬
洪宇
陆剑江
姚建民
朱巧明
机构
[1] 苏州大学计算机科学与技术学院
关键词
微博文本; 话题检测; TAT模型; 线索树; LDA特征选择;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
微博作为一种全新的信息发布模式,在极大程度上增强了网络信息的开放性和互动性,但同时也造成微博空间内信息量的裂变式增长。利用话题检测技术将微博文本信息按照话题进行归类和组织,可以帮助用户在动态变化的信息环境下高效获取个性信息或热点话题。该文针对微博文本短、半结构、上下文信息丰富等特点,提出了基于线索树的双层聚类的话题检测方法,通过利用融合了时序特征和作者信息的话题模型(Temporal-Author-Topic,TAT)进行线索树内的局部聚类,借以实现垃圾微博的过滤,最后利用整合后的线索树进行全局话题检测。实验结果显示该方法在解决数据稀疏方面取得了较好的效果,话题检测的F值达到31.2%。
引用
收藏
页码:121 / 128
页数:8
相关论文
共 1 条
  • [1] 一种基于动态进化模型的事件探测和追踪算法
    贾自艳
    何清
    张海俊
    李嘉佑
    史忠植
    [J]. 计算机研究与发展, 2004, (07) : 1273 - 1280