基于Adaboost算法与规则匹配的垃圾评论识别

被引:8
作者
昝红英
毕银龙
石金铭
机构
[1] 郑州大学信息工程学院
关键词
垃圾评论识别; 随机森林; Adaboost; 集成学习算法;
D O I
10.13705/j.issn.1671-6841.2016310
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
从评论的文本特征及元数据特征两个角度提取特征,避免特征向量过于稀疏.提出了基于随机森林的Adaboost算法,以减弱商品评论数据集不平衡性的影响.部分垃圾评论特征比较显著,采用规则匹配进一步提高垃圾评论识别的召回率.通过在COAE2015任务4提供的数据集上进行实验,取得较好的识别效果,验证了所提方法的有效性.
引用
收藏
页码:24 / 28
页数:5
相关论文
共 8 条
[1]
微博垃圾信息检测 [D]. 
杨凯帆 .
中国科学技术大学,
2015
[2]
垃圾微博信息过滤技术的研究 [D]. 
杨赫 .
哈尔滨理工大学,
2015
[3]
Spam detection using Random Boost [J].
DeBarr, Dave ;
Wechsler, Harry .
PATTERN RECOGNITION LETTERS, 2012, 33 (10) :1237-1244
[4]
基于随机森林的产品垃圾评论识别 [J].
何珑 .
中文信息学报, 2015, 29 (03) :150-154+161
[5]
电子商务中垃圾评论检测的特征提取方法 [J].
游贵荣 ;
吴为 ;
钱沄涛 .
现代图书情报技术, 2014, (10) :93-100
[6]
基于AdaBoost的微博垃圾评论识别方法 [J].
黄铃 ;
李学明 .
计算机应用, 2013, 33 (12) :3563-3566
[7]
用户评论的质量检测与控制研究综述 [J].
林煜明 ;
王晓玲 ;
朱涛 ;
周傲英 .
软件学报, 2014, 25 (03) :506-527
[8]
垃圾商品评论信息的识别研究 [J].
李霄 ;
丁晟春 .
现代图书情报技术, 2013, (01) :63-68