基于Hash技术的重复性评论检测

被引:10
作者
李真
林琛
李弼程
机构
[1] 信息工程大学信息工程学院
关键词
舆情信息; 重复评论; 相似度计算; Hash表;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
随着互联网技术的迅速发展,论坛已经成为人们获取信息、发表言论的重要场所,但大量的重复评论已成为论坛舆情信息内容获取与监管系统中新的难题,因此对重复评论进行有效检测和消重就至关重要。针对重复评论在一定时间内具有数量大、密度高、内容相似度高的特点,提出了一种基于SHA-1技术的重复评论检测方法。该方法以句和段为粒度块计算评论Hash值,然后统计Hash表中相同的指纹数目以此判断评论之间的相似度,最后依据给出的相似度阈值检测评论是否为重复评论。实验结果表明,该方法可以对重复评论进行有效检测和消重,且优于传统方法。
引用
收藏
页码:263 / 266
页数:4
相关论文
共 5 条
[1]
Collection statistics for fast duplicate document detection [J].
Chowdhury, A ;
Frieder, O ;
Grossman, D ;
McCabe, MC .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2002, 20 (02) :171-191
[2]
Syntactic clustering of the Web.[J].Andrei Z. Broder;Steven C. Glassman;Mark S. Manasse;Geoffrey Zweig.Computer Networks and ISDN Systems.1997, 8
[3]
自然语言文档复制检测研究综述 [J].
鲍军鹏 ;
沈钧毅 ;
刘晓东 ;
宋擒豹 .
软件学报, 2003, (10) :1753-1760
[4]
网络舆情研究概论.[M].刘毅; 著.天津人民出版社.2007,
[5]
舆论学原理、方法与应用.[M].韩运荣;喻国明.中国传媒大学出版社.2005, 7-81085-522-0