基于随机森林的产品垃圾评论识别

被引:24
作者
何珑 [1 ,2 ]
机构
[1] 福州大学信息化建设办公室
[2] 福建省超级计算中心
关键词
产品垃圾评论; 不平衡问题; 随机森林;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
摘要
目前的产品垃圾评论识别方法只考虑评论特征的选取,忽略了评论数据集的不平衡性。因此该文提出基于随机森林的产品垃圾评论识别方法,即对样本中的大、小类有放回的重复抽取同样数量样本或者给大、小类总体样本赋予同样的权重以建立随机森林模型。通过对亚马逊数据集的实验结果表明,基于随机森林的产品评论识别方法优于其他基线方法。
引用
收藏
页码:150 / 154+161 +161
页数:6
相关论文
共 6 条
[1]
融合多特征的产品垃圾评论识别 [J].
吴敏 ;
何珑 .
微型机与应用, 2012, 31 (22) :85-87+90
[2]
结合AB-SMOTE和C-SVM的中文倾向性句子识别 [J].
陈振伟 ;
廖祥文 .
福州大学学报(自然科学版), 2012, 40 (03) :310-315
[3]
文本情感分析 [J].
赵妍妍 ;
秦兵 ;
刘挺 .
软件学报, 2010, 21 (08) :1834-1848
[4]
由Logistic回归识别Web社区的垃圾评论 [J].
何海江 ;
凌云 .
计算机工程与应用, 2009, 45 (23) :140-143
[5]
Random forests [J].
Breiman, L .
MACHINE LEARNING, 2001, 45 (01) :5-32
[6]
Bagging predictors [J].
Breiman, L .
MACHINE LEARNING, 1996, 24 (02) :123-140