基于KNN和Bayes算法的组合分类器的垃圾评论识别研究

被引:1
作者
梁曌 [1 ]
陈思宇 [2 ]
梁小林 [2 ]
康欣 [2 ]
机构
[1] 长沙市雅礼中学
[2] 长沙理工大学数学与统计学院
关键词
KNN算法; Bayes算法; 组合分类器; 互信息; 交叉验证;
D O I
10.16339/j.cnki.hdjjsx.2016.01.006
中图分类号
F724.6 [电子贸易、网上贸易]; TP391.1 [文字信息处理];
学科分类号
1201 ;
摘要
产品垃圾评论在一定程度上影响了评论信息的参考价值,本文旨在建立识别模型将垃圾评论从评论文本中剔除,保留真实的产品评论。首先,分析了产品评论的特点,从数据搜集、文本预处理、互信息检验、文本表示4个模块提取了14个特征。然后,利用高互补性建立了基于KNN和Bayes算法的组合分类器模型。最后,利用交叉验证对iPhone 6Plus的产品评论进行检验,得到评价指标分别为:正确识别率75.3%、召回率82.1%以及F1值77.5%.
引用
收藏
页码:36 / 41
页数:6
相关论文
共 8 条
[1]   电子商务中垃圾评论检测的特征提取方法 [J].
游贵荣 ;
吴为 ;
钱沄涛 .
现代图书情报技术 , 2014, (10) :93-100
[2]   垃圾商品评论信息的识别研究 [J].
李霄 ;
丁晟春 .
现代图书情报技术, 2013, (01) :63-68
[3]   融合多特征的产品垃圾评论识别 [J].
吴敏 ;
何珑 .
微型机与应用, 2012, 31 (22) :85-87+90
[4]   基于用户行为的产品垃圾评论者检测研究 [J].
邱云飞 ;
王建坤 ;
邵良杉 ;
刘大有 .
计算机工程, 2012, 38 (11) :254-257+261
[5]   中文停用词表的自动选取 [J].
顾益军 ;
樊孝忠 ;
王建华 ;
汪涛 ;
黄维金 .
北京理工大学学报, 2005, (04) :337-340
[6]  
基于数据挖掘技术的产品垃圾评论识别研究.[D].陈昀.河北大学.2014, 03
[7]  
产品描述词及情感词抽取模式的研究.[D].赵文婧.北京邮电大学.2010, 03
[8]  
Quality evaluation of product reviews using an information quality framework.[J].Chien Chin Chen;You-De Tseng.Decision Support Systems.2010, 4