基于半监督主动学习的虚假评论检测

被引:13
作者
宋海霞 [1 ,2 ]
严馨 [1 ,2 ]
余正涛 [1 ,2 ]
石林宾 [1 ,2 ]
郭剑毅 [1 ,2 ]
机构
[1] 昆明理工大学信息工程与自动化学院
[2] 云南省计算机技术应用重点实验室
关键词
虚假评论; 半监督学习; 主动学习; Tri-training;
D O I
10.16112/j.cnki.53-1223/n.2015.05.010
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
基于有监督的虚假评论检测方法受限于标注语料的规模,为了更好地利用未标注评论数据来提高分类器的正确率和泛化能力,本文提出一种基于半监督主动学习的虚假评论检测方法.首先,定义并提取评论内容特征以及评论者行为特征,结合这两类特征来对虚假评论进行检测.然后,采用基于熵的主动学习算法选择对学习最有帮助的评论样本,获得其类别标注,将其合并到基于Tri-training的半监督学习算法的训练集中,利用大量未标注评论数据进行学习,提升分类器性能.最后,在领域评论数据集上进行实验,结果表明,将半监督学习与主动学习相结合,能够更有效的利用未标注评论数据,从而有效地提高虚假评论检测的效果.
引用
收藏
页码:59 / 65
页数:7
相关论文
共 8 条
[1]
基于产品评论的情感分析研究 [D]. 
李方涛 .
清华大学,
2011
[2]
基于分歧的半监督学习.[J].周志华;.自动化学报.2013, 11
[3]
基于自适应聚类的虚假评论检测 [J].
宋海霞 ;
严馨 ;
余正涛 ;
石林宾 ;
苏斐 .
南京大学学报(自然科学版), 2013, 49 (04) :433-438
[4]
垃圾评论自动过滤方法 [J].
谭文堂 ;
朱洪 ;
葛斌 ;
李芳芳 ;
肖卫东 .
国防科技大学学报, 2012, 34 (05) :153-157+168
[5]
文本情感分析 [J].
赵妍妍 ;
秦兵 ;
刘挺 .
软件学报, 2010, 21 (08) :1834-1848
[6]
Semi-supervised learning by disagreement [J].
Zhou, Zhi-Hua ;
Li, Ming .
KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 24 (03) :415-439
[7]
Enhancing relevance feedback in image retrieval using unlabeled data [J].
Zhou, Zhi-Hua ;
Chen, Ke-Jia ;
Dai, Hong-Bin .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2006, 24 (02) :219-244
[8]
Improved particle swarm optimization technique using hard boundary conditions [J].
Mikki, S ;
Kishk, A .
MICROWAVE AND OPTICAL TECHNOLOGY LETTERS, 2005, 46 (05) :422-426