基于随机森林的产品垃圾评论识别

被引：24

作者：

何珑 ^{[1
,2
]}

机构：

[1] 福州大学信息化建设办公室

[2] 福建省超级计算中心

来源：

中文信息学报 | 2015年 / 29卷 / 03期

关键词：

产品垃圾评论; 不平衡问题; 随机森林;

D O I：

暂无

中图分类号：

TP391.41 [];

学科分类号：

摘要：

目前的产品垃圾评论识别方法只考虑评论特征的选取,忽略了评论数据集的不平衡性。因此该文提出基于随机森林的产品垃圾评论识别方法,即对样本中的大、小类有放回的重复抽取同样数量样本或者给大、小类总体样本赋予同样的权重以建立随机森林模型。通过对亚马逊数据集的实验结果表明,基于随机森林的产品评论识别方法优于其他基线方法。

引用

收藏

页码：150 / 154+161 +161

页数：6

相关论文

共 6 条

[1]

融合多特征的产品垃圾评论识别 [J].

吴敏 ;

何珑 .

微型机与应用, 2012, 31 (22) :85-87+90

[2]

结合AB-SMOTE和C-SVM的中文倾向性句子识别 [J].

陈振伟 ;

廖祥文 .

福州大学学报(自然科学版), 2012, 40 (03) :310-315

[3]

文本情感分析 [J].

赵妍妍 ;

秦兵 ;

刘挺 .

软件学报, 2010, 21 (08) :1834-1848

[4]

由Logistic回归识别Web社区的垃圾评论 [J].

何海江 ;

凌云 .

计算机工程与应用, 2009, 45 (23) :140-143

[5]

Random forests [J].

Breiman, L .

MACHINE LEARNING, 2001, 45 (01) :5-32

[6]

Bagging predictors [J].

Breiman, L .

MACHINE LEARNING, 1996, 24 (02) :123-140