基于PU学习算法的虚假评论识别研究

被引:89
作者
任亚峰
姬东鸿
张红斌
尹兰
机构
[1] 武汉大学计算机学院
关键词
虚假评论; 全监督学习; PU学习; 狄利克雷过程混合模型; 多核学习;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
140502 [人工智能];
摘要
识别虚假评论有着重要的理论意义与现实价值.先前工作集中于启发式策略和传统的全监督学习算法.最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚假评论并不合理.容易被错误标注的样例称为间谍样例,如何确定这些样例的类别标签将直接影响分类器的性能.基于少量的真实评论和大量的未标注评论,提出一种创新的PU(positive and unlabeled)学习框架来识别虚假评论.首先,从无标注数据集中识别出少量可信度较高的负例.其次,通过整合LDA(latent Dirichlet allocation)和K-means,分别计算出多个代表性的正例和负例.接着,基于狄利克雷过程混合模型(Dirichlet process mixture model,DPMM),对所有间谍样例进行聚类,混合种群性和个体性策略来确定间谍样例的类别标签.最后,多核学习算法被用来训练最终的分类器.数值实验证实了所提算法的有效性,超过当前的基准.
引用
收藏
页码:639 / 648
页数:10
相关论文
共 4 条
[1]
Selective multiple kernel learning for classification with ensemble strategy [J].
Sun, Tao ;
Jiao, Licheng ;
Liu, Fang ;
Wang, Shuang ;
Feng, Jie .
PATTERN RECOGNITION, 2013, 46 (11) :3081-3090
[2]
Opinion Formation Under Costly Expression [J].
Wu, Fang ;
Huberman, Bernardo A. .
ACM TRANSACTIONS ON INTELLIGENT SYSTEMS AND TECHNOLOGY, 2010, 1 (01)
[3]
基于情感特征聚类的半监督情感分类 [J].
李素科 ;
蒋严冰 .
计算机研究与发展, 2013, 50 (12) :2570-2577
[4]
基于情感关键句抽取的情感分类研究 [J].
林政 ;
谭松波 ;
程学旗 .
计算机研究与发展, 2012, 49 (11) :2376-2382