基于文本相似度的微博网络水军发现算法

被引:11
作者
杨长春
徐小松
叶施仁
周猛
机构
[1] 常州大学信息科学与工程学院
关键词
特征码; 索引; 文本相似度; 最长子序列;
D O I
10.19304/j.cnki.issn1000-7180.2014.03.020
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
微博中水军发表的评论内容具有重复或者相似性,提出了基于文本相似度的微博网络水军发现算法.评论内容可以用特征码来表示.特征码再通过高效的B-Tree来索引,使整个系统具有极高的处理效率.根据水军发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容进行统计分析找出出现次数频繁的用户,初步定义为水军.再对这些用户的评论内容进行分析,发现他们的评论内容基本上都是具有重复性.试验表明,该方法能够准确、有效地找出水军账户.
引用
收藏
页码:82 / 85
页数:4
相关论文
共 9 条
[1]   网络水军的成因及其发展——以库尔特·勒温“B=f(P·E)”为视角 [J].
赵敏 ;
谭腾飞 .
新疆社科论坛, 2012, (03) :64-66
[2]   基于文本认知Hash的网络水军发帖检测技术研究 [J].
胡舜良 ;
凌宝红 ;
胡东辉 .
安庆师范学院学报(自然科学版), 2012, 18 (02) :69-72
[3]   “网络水军”泛滥与网络舆情监测的完善 [J].
陈宇 .
青年记者, 2011, (15) :69-70
[4]   基于文本情感分类的网络推手识别 [J].
李纲 ;
甘停 ;
寇广增 .
图书情报工作, 2010, 54 (08) :77-80
[5]   基于网页正文主题和摘要的网页去重算法 [J].
周小平 ;
黄家裕 ;
刘连芳 ;
梁一平 ;
申文明 .
广西科学院学报, 2009, 25 (04) :251-253
[6]   基于网页文本结构的网页去重 [J].
魏丽霞 ;
郑家恒 .
计算机应用, 2007, (11) :2854-2856
[7]   最长公共子序列问题的改进快速算法 [J].
李欣 ;
舒风笛 .
计算机应用研究, 2000, (02) :28-30
[8]   A LONGEST COMMON SUBSEQUENCE ALGORITHM SUITABLE FOR SIMILAR TEXT STRINGS [J].
NAKATSU, N ;
KAMBAYASHI, Y ;
YAJIMA, S .
ACTA INFORMATICA, 1982, 18 (02) :171-179
[9]   UBIQUITOUS B-TREE [J].
COMER, D .
COMPUTING SURVEYS, 1979, 11 (02) :121-137