基于Hash技术的重复性评论检测

被引：10

作者：

李真

林琛

李弼程

机构：

[1] 信息工程大学信息工程学院

来源：

计算机应用 | 2009年 / 29(S2)卷 / S2期

关键词：

舆情信息; 重复评论; 相似度计算; Hash表;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

随着互联网技术的迅速发展,论坛已经成为人们获取信息、发表言论的重要场所,但大量的重复评论已成为论坛舆情信息内容获取与监管系统中新的难题,因此对重复评论进行有效检测和消重就至关重要。针对重复评论在一定时间内具有数量大、密度高、内容相似度高的特点,提出了一种基于SHA-1技术的重复评论检测方法。该方法以句和段为粒度块计算评论Hash值,然后统计Hash表中相同的指纹数目以此判断评论之间的相似度,最后依据给出的相似度阈值检测评论是否为重复评论。实验结果表明,该方法可以对重复评论进行有效检测和消重,且优于传统方法。

引用

页码：263 / 266

页数：4

共 5 条

[1]

Collection statistics for fast duplicate document detection [J].