MB-SinglePass:基于组合相似度的微博话题检测

被引:22
作者
周刚 [1 ,2 ]
邹鸿程 [2 ]
熊小兵 [2 ]
黄永忠 [2 ]
机构
[1] 软件开发环境国家重点实验室
[2] 信息工程大学信息工程学院
关键词
微博; SinglePass; 话题检测; 文本相似度; 同义词扩展;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
话题检测技术在传统媒体的研究中取得了较好的效果。探讨了针对微博类的新型媒体短文本对象话题检测技术的优化及性能评价。基于微博中联系人存在的关注和粉丝等结构化信息、帖子之间转发评论等内在关联关系,提出了针对微博的MB-SinglePass话题检测算法。该算法除了考虑微博上述特点之外,还针对短文本特征稀疏的问题,利用同义词典,引入了微博特征扩展技术,丰富了特征信息。同时,针对单一使用余弦相似度、雅各比相似度和语义相似度的不足,采用了组合相似度策略。相较传统算法,MB-SinglePass算法在新浪微博实测数据集上取得了更好的性能。另外,针对相似度策略的对照实验说明采用组合相似度的效果优于单一相似度。
引用
收藏
页码:198 / 202
页数:5
相关论文
共 8 条
  • [1] 基于语义相似度的论坛话题追踪方法
    席耀一
    林琛
    李弼程
    周杰
    许旭阳
    [J]. 计算机应用, 2011, 31 (01) : 93 - 96
  • [2] 话题发现与追踪技术研究
    张晓艳
    王挺
    [J]. 计算机科学与探索, 2009, 3 (04) : 347 - 357
  • [3] 话题检测与跟踪的评测及研究综述
    洪宇
    张宇
    刘挺
    李生
    [J]. 中文信息学报, 2007, (06) : 71 - 87
  • [4] 基于查询术语同义词的扩展信念网络检索模型
    徐建民
    唐万生
    [J]. 计算机工程, 2007, (10) : 28 - 30
  • [5] 一种基于动态进化模型的事件探测和追踪算法
    贾自艳
    何清
    张海俊
    李嘉佑
    史忠植
    [J]. 计算机研究与发展, 2004, (07) : 1273 - 1280
  • [6] 中文微博客热点话题检测与跟踪技术研究[D]. 孙胜平.北京交通大学 2011
  • [7] 数据挖掘[M]. 清华大学出版社 , (美)MehmedKantardzic著, 2003
  • [8] Question classification using support vector machines. Dell Zhang, Wee Sun Lee. Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR) . 2003