共 9 条
基于文本相似度的微博网络水军发现算法
被引:11
作者:
杨长春
徐小松
叶施仁
周猛
机构:
[1] 常州大学信息科学与工程学院
来源:
关键词:
特征码;
索引;
文本相似度;
最长子序列;
D O I:
10.19304/j.cnki.issn1000-7180.2014.03.020
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
微博中水军发表的评论内容具有重复或者相似性,提出了基于文本相似度的微博网络水军发现算法.评论内容可以用特征码来表示.特征码再通过高效的B-Tree来索引,使整个系统具有极高的处理效率.根据水军发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容进行统计分析找出出现次数频繁的用户,初步定义为水军.再对这些用户的评论内容进行分析,发现他们的评论内容基本上都是具有重复性.试验表明,该方法能够准确、有效地找出水军账户.
引用
收藏
页码:82 / 85
页数:4
相关论文