垃圾评论自动过滤方法

被引:15
作者
谭文堂
朱洪
葛斌
李芳芳
肖卫东
机构
[1] 国防科技大学信息系统工程重点实验室
关键词
垃圾评论检测; 电阻距离; 电离群因子;
D O I
暂无
中图分类号
TP393.09 []; TP391.1 [文字信息处理];
学科分类号
080402 ;
摘要
针对互联网上存在的大量垃圾评论,提出一种基于电阻网络的垃圾评论检测方法,该方法用电阻距离来度量评论之间的上下文语义相似性,把整个评论数据表示成一个电阻网络,把垃圾评论当作该网络上的语义离群点来处理,根据网络节点对电阻网络平均电能消耗的影响,建立电离群因子来度量数据的离群程度,以此来识别垃圾评论。实验证明了该方法的有效性,在多个数据集上取得了较好的效果。
引用
收藏
页码:153 / 157+168 +168
页数:6
相关论文
共 4 条
[1]   AN EFFICIENT APPROACH TO COMMENT SPAM IDENTIFICATION [J].
Yang Yuhang Zhao Tiejun Zheng Dequan Yu Hao (MOE-MS Key Laboratory of Natural Language Processing and Speech .
JournalofElectronics(China), 2009, 26 (05) :644-650
[2]   The electrical resistance of a graph captures its commute and cover times [J].
Chandra, AK ;
Raghavan, P ;
Ruzzo, WL ;
Smolensky, R ;
Tiwari, P .
COMPUTATIONAL COMPLEXITY, 1997, 6 (04) :312-340
[3]  
Resistance distance[J] . D. J. Klein,M. Randi?.Journal of Mathematical Chemistry . 1993 (1)
[4]  
Random-walk Computa-tion of Similarities Between Nodes of a Graph with Application toCollaborative Recommendation .2 Fouss F,Pirotte A,Renders J M,et al. Knowledge and Data Engineer-ing . 2007