一种突发性热点话题在线发现与跟踪方法

被引:19
作者
薛峰
周亚东
高峰
刘霁
赵俊舟
党琪
机构
[1] 西安交通大学智能网络与网络安全教育部重点实验室
关键词
突发性热点话题; 话题发现与跟踪; 向量空间模型;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
针对在线发现与跟踪动态突发性文本流中的热点话题问题,在突发性热点词发现与度量方法的基础上提出了一种动态文本模型———动态突发性向量空间模型,用于有效描述文本的动态属性,并且结合文本聚类方法,提出了突发性热点话题的在线发现与跟踪方法.该方法可有效解决传统的基于静态向量空间模型的热点话题发现与跟踪方法仅可分析静态文本的缺陷,并具有以下特点:在特征选择阶段动态地生成热点词特征库,利用模型统一文本和话题的表示,在文本表示时给予突发性热点词更大的权重.基于实际网络文本流数据的实验表明,该方法对突发性热点话题发现的精确率与召回率分别达到92.75%和80.34%,显著优于传统的基于静态向量空间模型方法的实验结果,并可有效跟踪突发性热点话题,弥补了传统静态方法不能有效跟踪热点话题的不足.
引用
收藏
页码:64 / 69+116 +116
页数:7
相关论文
共 14 条
[1]   海量信息异常检测问题的异常概率排序算法 [J].
陈刚 ;
蔡远利 ;
穆静 ;
杨卫丽 .
西安交通大学学报, 2011, 45 (04) :36-40
[2]   应用粒子群优化-条件随机域的文本生物实体识别 [J].
豆增发 ;
高琳 .
西安交通大学学报, 2010, 44 (12) :38-42+124
[3]   高效的用户访问预测新算法 [J].
冯少荣 ;
张东站 .
西安交通大学学报, 2010, 44 (04) :28-33
[4]   采用并行遗传算法的文本分割研究 [J].
赵煜 ;
蔡皖东 ;
樊娜 ;
刘念 .
西安交通大学学报, 2009, 43 (12) :40-44
[5]   具有孤立项过滤的信息检索查询词的分析方法 [J].
乔亚男 ;
齐勇 ;
侯迪 .
西安交通大学学报 , 2009, (08) :6-10+63
[6]   面向入侵检测系统的模式匹配算法研究 [J].
姜庆民 ;
吴宁 ;
刘伟华 .
西安交通大学学报, 2009, 43 (02) :58-62
[7]   基于免疫记忆克隆的特征选择 [J].
朱虎明 ;
焦李成 .
西安交通大学学报 , 2008, (06) :679-682+722
[8]   结合受控词汇表的生物基因本体标注与分类 [J].
崔舒宁 ;
朱丹军 ;
冯博琴 ;
昂正全 .
西安交通大学学报, 2008, (02) :171-174
[9]   流量内容词语相关度的网络热点话题提取 [J].
周亚东 ;
孙钦东 ;
管晓宏 ;
李卫 ;
陶敬 .
西安交通大学学报, 2007, (10) :1142-1145+1150
[10]   蚁群-遗传融合的文本聚类算法 [J].
张云 ;
冯博琴 ;
麻首强 ;
刘连梦 .
西安交通大学学报, 2007, (10) :1146-1150